感謝子不語的發問
問題:請問生物課本裡面的基因,跟DNA似乎不是一對一對應?所以是多少DNA可以表現一個基因?基因是怎麼定義的?
---------------------------------------------------------------------
首先,我必須先從染色體介紹起,讓大家能夠層層剖析地了解什麼是基因。每個物種都有特定數量的染色體,例如,人類有23對,花生有20對,郊狼有39對,而心臟葉瓶爾小草(Ophioglossum reticulatum)有630對。染色體在真核細胞中位於細胞核內,當細胞不分裂時,染色體像一堆毛線一樣分散於細胞核中,但仍有特定的分布。當細胞即將分裂時,染色體會凝聚成棒狀,這就是我們在教科書上所熟悉的樣貌。
染色體是由DNA和多種蛋白質纏繞形成的結構,其中組織蛋白結合成的八聚體占大部分。組織蛋白八聚體由組織蛋白H3、H4、H2A、H2B(各自還有多種變體)聚合而成,每146個DNA鹼基對纏繞一個組織蛋白八聚體。染色體的結構鬆散或密集取決於DNA纏繞這些蛋白質的緊密程度。
至於DNA是什麼呢?DNA的全名是deoxyribonucleic acid,中文翻譯為「去氧核糖核酸」。什麼又是去氧核醣核酸?它是「去氧核糖核苷酸」藉由共價鍵串聯出來的聚合物,所以我們可以將去氧核糖核苷酸視為組成DNA的小單元。去氧核糖核苷酸的分子結構分為三個區塊,去氧核醣、含氮鹼基、磷酸基。
1. 核醣是一種由五個碳組成的醣類,「去氧」指的是第二號的碳原子上面原本的羥基(-OH)沒有了氧,只剩一個氫連接在二號碳上。
2. DNA上面的去氧核糖核苷酸並非只有一種,而是四種,差異就在去氧核醣可以連接四種不同的含氮鹼基,分別是腺嘌呤(adenine)、鳥嘌呤(guanine)、胞嘧啶(cytosine)、胸腺嘧啶(thymine),也分別以英文名稱的第一個字母為代號A、G、C、T當作描述DNA中去氧核糖核苷酸的組成表示法,也稱作DNA序列。A、G、C、T如何串聯都可以,每種基因都有自己獨特的排列組合,例如β-肌動蛋白的DNA序列前十個去氧核糖核苷酸組成是ATGGATGATG。
3. 磷酸基連接於去氧核糖的第五號碳,是將去氧核糖核苷酸串聯形成DNA的部分。一個去氧核糖核苷酸的磷酸基上的氧原子會與下一個去氧核糖核苷酸的去氧核糖的第三號碳原子連接,因此DNA是有方向的,也就是以第一個去氧核糖核苷酸的五號碳串聯至最後一個去氧核糖核苷酸的三號碳,方向稱作五端至三端,任何基因的表達過程都是依照五端至三端的方向進行。所以剛才ATGGATGATG的序列方向表示法為5'-ATGGATGATG-3'。
DNA就是藉由A、G、C、T的各種排列組合形成,每種基因都有自己獨特的DNA序列,之後轉錄並轉譯成獨特的蛋白質就具有獨特的功能。
所有生物的DNA都是雙股DNA,意思是兩條彼此相反方向的DNA配對接合形成的螺旋結構。只有病毒的遺傳物質才存在單股的DNA,有些種類的病毒甚至是以單股或雙股RNA(ribonucleic acid,核糖核苷酸)作為遺傳物質。雙股DNA因分子的型態趨向形成右螺旋,左旋則不常見,有時候同一條DNA可能因為A、G、C、T的組成不同而同時出現右旋和左旋區段。
兩股的DNA如何配對接合的呢?這是含氮鹼基來決定的,A與T配對最穩定,彼此形成兩個氫鍵,而C和G配對最穩定,會形成三個氫鍵。以下是雙股DNA配對的表示法:
其中每一個配對都稱為「鹼基對」,以上方的隨意例子來說,包含了十個鹼基對。而上面舉例的β-肌動蛋白之DNA序列全長為1125個鹼基對。
一條染色體是由一條DNA組成,這樣的DNA非常的長,比如人類的第一號染色體的DNA全長約有2億4千9百萬個鹼基對組成;第二號染色體則有2億4千2萬個鹼基對。以此類推,人類其中的23條染色體分別由23條DNA各自形成,總和有32億多的鹼基對。這麼長的DNA序列是否都是基因呢?先說答案,否。
基因的定義是能夠從DNA轉錄成RNA的所有區段都可以稱做基因。有些RNA轉譯生成蛋白質,這類的RNA稱作mRNA(信使核糖核酸),此外的其他種類稱作非編碼RNA,例如攜帶胺基酸參與轉譯過程的tRNA、核醣體內的rRNA、參與mRNA剪接的snRNA、修飾其他RNA的snoRNA、協助各種生物反應的lncRNA等等。但能稱作基因的DNA序列佔人類所有DNA的比例是多少呢?
以下是佔比:
能產生蛋白質的DNA序列:約1.5%
非編碼RNA的DNA序列:約1.66%
內含子:約26%
意思是人類所有DNA裡,可能不到30%是基因,剩下的70%都不是基因。這些DNA在以往不被瞭解的情況下被稱作垃圾DNA,因為當時被認為沒有任何功能,但隨著研究的發展,逐漸發現這些DNA序列有著許多重要的功能,例如調控基因的表達、維持染色體的穩定、細胞分裂時染色體分離的辨識區、影響生物的壽命等等。
70%的DNA大致包含以下:
SINE(短散在核元件):約13.1%
LINE(長散在核元件):約20.4%
LTR反轉錄轉座子:約8.3%
DNA轉座子:約2.9%
簡單重複序列:約3%
假基因、無功能基因片段:約5%
異染色質:約8%
特殊序列:約11.6%
(有非常多的研究發現重複序列的多寡會影響細胞的癌化、產生疾病等問題)
這些序列的功能往後有機會再作介紹。
基因在染色體上就像是汪洋中的一座座小島,如β-肌動蛋白的基因出現在人類第七號染色體的第5,530,601至5,527,148的鹼基對(每個人可能有些許差異,僅供參考),它的前一個基因(FBXL18)與它相距13,339個鹼基對,與下一個基因(FSCN1)相距62,215個鹼基對,彼此並不鄰近。因此基因只是染色體上一段一段的序列而已,基因是由DNA組成,但並不是所有DNA都等於基因。
作者:水也佑