聽過「基因表現」(gene expression)嗎?基因表現,就是讓位於我們基因體裡面的基因,先透過轉錄(transcription)產生核糖核酸(RNA),然後RNA再透過轉譯(translation)產生蛋白質。不過,有一小部分的基因,並不會產生蛋白質,而是只產生RNA。由此可知,基因的轉錄對基因能否表現非常重要。
而轉錄,也就是以DNA為模版製作出RNA的過程,除了最重要的RNA聚合酶(RNA polymerase),就是轉錄因子(TF,transcription factor)了。轉錄因子負責調控特定基因(群)的轉錄與否。它們透過辨認基因體上的特定序列,來辨別這個/群基因是不是它需要調控的。它們不見得只是讓基因表現出來,有些也會讓基因不表現。通常,一個轉錄因子不會只調節一個基因的表現,而一個基因也常常不會只有一個轉錄因子可以調節它的表現。
什麼會影響轉錄因子呢?很多,如賀爾蒙或其他的小分子化合物、其他的蛋白質、非生物性的刺激,都會影響轉錄因子。一旦轉錄因子被刺激到了,它接下來可能要召喚其他的蛋白質,用來讓特定的基因表現;它也可能去跟某些蛋白質結合,讓這些蛋白質動彈不得,於是基因就不能表現。
說了這麼多,不知道大家意識到轉錄因子是個怎樣複雜的傢伙嗎?它要結合與辨認DNA、要召喚或尋找其他蛋白質、要辨認特定的信號...可以說,轉錄因子就像一個活動企劃師,要負責收集訊息、協調成員,最後讓活動完美舉辦,真的是不容易!
因此,過去的研究發現,轉錄因子上面可以找到各種各樣的功能區域。包括DNA結合區域、轉錄活化區域、轉錄抑制區域、核定位信號(別忘了它要進入細胞核才能工作)、激素或小分子結合區域、蛋白質相互作用區域、調節區域,有些轉錄因子因為工作需要,甚至具備了與自己人組成雙胞胎或多胞胎的區域!
在這麼多的區域中,比較容易辨認的是DNA結合區域、核定位信號、激素或小分子結合區域、蛋白質相互作用區域、調節區域,這些透過多年來的研究,已經發現了不少的組合模式。最難辨認的,首推轉錄活化區域。
轉錄活化區域為什麼難辨認呢?原來,這個區域的胺基酸通常不會形成明確的3D結構;雖然通常裡面會有比較多的酸性胺基酸、芳香族胺基酸以及疏水性胺基酸,但是序列缺乏「保守性」,也就是說,它們在不同的轉錄因子裡,長得都不怎麼像。這使得它們不太容易靠著用眼睛看來發現。
可是,轉錄活化區域對轉錄因子的功能很重要。沒有它,我們的活動企劃師就不能召喚其他的蛋白質,就像沒有了靈魂一樣。所以,怎麼辦呢?
最近,有一群聰明的科學家建立了一套稱為PADI的系統,可以有效的「掃描」這些轉錄活化區域,把它們一一找到。這套系統是怎樣的呢?
科學家們建造了一個人造基因,這個人造基因,最前面是紅色螢光蛋白(mCherry),然後接上一個DNA結合區域(DBD)以及雌二醇啟動的核定位區域(ERD),最後接上來自植物的未知轉錄因子片段(TF fragment)。最前面的紅色螢光蛋白,讓科學家知道這個基因有沒有表現出來;而DNA結合區域可以讓它辨認DNA序列,核定位區域在加入雌二醇之後,就會把整個人造蛋白帶到細胞核裡面去。如果最後的未知植物片段具有召喚其他蛋白質、啟動轉錄的能力,那麼DNA結合區域所辨認出來的基因,就會表現出來。
這個DNA結合區域,辨認什麼基因呢?研究團隊讓它能夠辨認一個綠色螢光蛋白的基因。所以,如果未知植物片段有功能,可以召喚其他蛋白質、啟動轉錄,科學家們就可以看到綠色螢光出現,且螢光愈強,代表這段未知片段的活性越高!
科學家們用這個方法,掃描了阿拉伯芥的1918個轉錄因子,在裡面找到了1553個轉錄活化區域,大部分都是以前不知道的;而他們把這些資料拿去訓練深度學習模型,最後發現這些轉錄活化區域還是有一些小特徵可以辨認出來,而且與特定功能(比方說,對生長素有反應的轉錄因子)相關的轉錄因子的特徵,會更容易辨認出來。
總而言之,這套系統可以用來大量發現特定植物轉錄因子們的轉錄活化區域。阿拉伯芥只是一個開端,未來還可以進一步去搜尋其他植物的轉錄活化區域,而隨著資料愈收集愈多,我們對轉錄活化區域的了解就愈多,也就能更深入了解,植物如何調控自己的基因表現了!
參考文獻:
Morffy, N., Van den Broeck, L., Miller, C. et al. Identification of plant transcriptional activation domains. Nature (2024). https://doi.org/10.1038/s41586-024-07707-3