垃圾基因
"垃圾"基因,或非編碼基因,是指沒有被發現用途的基因。
在把基因按功能分類之後還有很大數量的基因沒有被分進任何類別。
由於這些基因沒有任何的作用,他們被稱為垃圾基因。垃圾基因占人類基因的98%左右。
占據
基因
組絕大部分區域的“垃圾DNA”,可能並不是基因的墓場,而是未被認識的寶藏。
到今年,DNA雙螺鏇結構向人類展露其本來面目已有52年了。開啟這個生物學新時代的4位代表人物中有3位已經辭世——羅莎琳德·富蘭克林、莫里斯·威爾金斯、弗朗西斯·克里克。碩果僅存的詹姆斯·沃森,也早已從當年意氣風發的小伙子變成了白髮蒼蒼的老人。然而分子生物學依然是一門年輕的學科。人類已經繪出包括自身在內的許多物種的基因組圖譜,DNA測序似乎已成為全無技術難度的體力勞動,一些科學家嚷嚷著要進入“後基因組時代”。但是,平日充斥於學術論文和新聞媒體的“基因”,只是生命之書中一些極小的段落。基因組絕大部分區域仍然潛藏在暗影中,長久以來被人們當作“垃圾”而忽視,只在近年來才泄露出幾縷光芒,顯示這個巨大的垃圾場可能蘊藏著與其體積相稱的寶藏。
以垃圾的名義
自從人類基因組草圖繪製完成,23對染色體、30億個鹼基對,這樣的常識也開始為非專業人士所熟知,人類對自身遺傳圖譜的認識得到很大的補充和修正。大概在2000年時,科學家還估計人類基因組中約有10萬個基因,但不出5年這一數字已跌到2~4萬,目前一種比較通行的說法是約2.5萬。這些基因所包含的DNA序列,大概只有人類基因組序列總長的2%左右。也就是說,人類生命藍圖中約有98%的信息似乎不屬於什麼基因,是無用的垃圾。然則什麼是垃圾?
科學家培育轉基因鼠,研究垃圾DNA的功用
地球上絕大多數生命以DNA為遺傳物質,另有一些病毒使用RNA,沒有別的方案——為什麼是這樣,科學家並不知道。他們急於尋找外星生命,哪怕只是細菌也好,一個重要原因就是想看看地球生命使用DNA是偶然還是必然。DNA由4種鹼基也就是4種“字母”組成,分別稱為A、T、C、G,在RNA中,字母T被換成U。整個DNA雙螺鏇就像一條極長的、扭曲的梯子,梯子的兩邊各是一條由許多字母逐個連成的帶子,每個字母與對面帶子上相應位置的字母結合在一起,成為一個梯級,稱為“鹼基對”。其中只能A、T相互結合,C、G相互結合,所以知道了DNA雙鏈中一條的鹼基順序,另一條也就確定了,這兩條鏈是互補的。
生物的遺傳信息,就是DNA鏈上這些字母的排列方式。將藍圖轉化為實際產品的過程,就是一段DNA根據其鹼基序列合成出對應的RNA序列(轉錄),然後RNA序列信息指導胺基酸拼合形成蛋白質(翻譯)。生物體的生理機能,基本上都由蛋白質完成,比如在血液中運送氧氣、進行新陳代謝等等。可以說,DNA發出命令,RNA揮動鞭子,蛋白質則是賣苦力的牛馬。從DNA到RNA再到蛋白質的這個過程,就是生物學的“中心法則”。
能夠最終形成蛋白質或說“編碼某種蛋白質”的這樣一段DNA,就是我們傳統意義上所說的“基因”。在人和其它生物體內,這樣的基因都只占整個基因組的很小一部分,它們就像寶石一樣,零星地落在暗沉沉的荒野中。各基因之間是大片大片不能製造蛋白質的DNA序列,即“非編碼序列”。生物學家們在很長時間裡都認為,既然幾乎所有具體的生理機能都要蛋白質來完成,那么不編碼蛋白質的DNA應該是沒有用的,可以稱為“垃圾DNA”(Junk DNA)。
基因的墓場
一集50分鐘的電視劇,被拆成好幾節來播放,中途插入的廣告總共算起來有半小時以上,是否已經讓你忍無可忍?那么,假如給2分鐘的正經節目附上98分鐘的廣告,你會有什麼感覺?是的,太過分了!生命為何要如此浪費?除了性細胞,人體每個細胞里都有一整套的DNA,每套DNA只有約2%的內容有用。在其它哺乳動物體內,比例也大抵如此。有些物種的基因組更加“精練”、垃圾更少,比如雞的基因組大小只有人類的1/3,河豚則為人類的1/10,但它們的基因數量卻與人類差不多。也有的更誇張,洋蔥的基因組有人類基因組的12倍那么大,阿米巴變形蟲的基因組更是比你的基因組大200多倍。但那裡面垃圾太多、全不足道,決不能使一個洋蔥頭或一隻阿米巴比你更高等。這實在是質量勝過數量的絕好例子。
阿米巴的基因組比人類大200倍
人們對垃圾DNA的來源提出了多種解釋,比如有一部分垃圾來自病毒。逆轉錄病毒是一類以RNA為遺傳物質的病毒,其中我們最熟悉的是愛滋病病毒。它們侵襲宿主細胞時,會把自身的RNA轉換成DNA,插入基因組中,並跳來跳去大量複製。從DNA到RNA的過程叫轉錄,反過來就叫做逆轉錄,這也是這類病毒的名稱由來。逆轉錄病毒有的會致病,引起愛滋病或癌症等,也有的沒有什麼影響。在進化歷程中,有許多逆轉錄病毒DNA留在了人類基因組裡,成為垃圾。
還有一些垃圾DNA可能是死亡基因的遺骸,稱為“假基因”。科學家認為,它們原本是編碼蛋白質的真基因,由於發生變異而失去功能,被棄之不用。它們的序列與真基因非常相似,但有著細微差別,正是這些差別使假基因不能編碼蛋白質。去掉假基因不會影響機體的功能;偶爾某個假基因發生變化、死而復生,倒可能造成麻煩。由於假基因的存在不增加或減少生物的生存優勢,所以進化過程很難把它們從基因組裡清掃出去,就好像把東西扔到了垃圾桶里,卻沒有人把垃圾桶拿出去清倒,結果在屋子裡越積越多。假基因在生物基因組中大量存在,人體內就有約2萬個,幾乎與真基因的數量相當。
河豚的基因數量與人類差不多
有證據顯示,至少一部分垃圾DNA很像真正的垃圾,因為動物失去它們之後依然生活得很好。2004年10月,一組美國科學家在《自然》雜誌上報告說,他們刪除了小鼠基因組中超過100萬個鹼基對的非編碼DNA(約占鼠基因組的1%),並沒有給這些小鼠的發育、壽命和繁殖造成可察覺的影響。在100多項評估基因活性的組織測試中,只有2項發現了差異。他們還培育出失去300萬個鹼基對的非編碼DNA的小鼠,也沒有發現明顯異常。當然,也許失去這些區域帶來的改變極其微小,以目前的水平、在實驗室里一兩代的培育中看不出來。
亮光閃耀
然而這並不是全部。在過去幾年中,分子生物家們已經越來越感覺到,“垃圾DNA”的命名過於草率了,連“基因”的定義也需要重寫。編碼蛋白質並不是DNA的全部意義,那些非編碼區域,也許有一部分像上面的實驗所顯示的那樣沒有明顯功能,但更多的部分我們還不了解,不能先入為主地將它們扔進垃圾堆。實際上,那一大堆“垃圾”里,已經長出了一些讓科學家眼花繚亂的東西,而這還只是冰山之一角。
比如,理論上完全無用的假基因並不是那么“假”,2003年一個日本研究小組發現了第一個有功能的假基因。科學家培育出一種轉基因小鼠,它們帶有一個名叫“性別致死”的基因。這個名字可怕的外來基因在大多數小鼠身上並沒有造成什麼負面影響,唯獨在某一個品系中名符其實,所有的小鼠在幼年時就死了。研究顯示,在這個品系的小鼠中,外來基因偶然地插入了一個叫makorin1-p1的假基因中間,把它破壞掉了。這個假基因是makorin1基因的變異版本,比“正本”要短很多,不編碼蛋白質,按傳統理論應該沒有用處。然而事實是,它損壞後,對應的真基因也不工作了。這個假基因轉錄出的RNA很可能控制著真基因的表達,儘管兩者位於不同的染色體上。
那么,至少在這個例子裡,不編碼蛋白質的基因也對生存至關重要,沒有什麼假不假的,只是工作方式與傳統基因不同——通過RNA而非蛋白質來起作用。從前RNA只被當作從DNA到蛋白質的中間人、將遺傳信息從藍圖傳遞到工人手中的信使。但新研究顯示,一些RNA可以與其它的RNA、DNA、蛋白質甚至小分子科學家培育轉基因鼠,研究垃圾DNA的功用化學物質發生作用,直接影響生理機能——也就是說,不是作為揮動鞭子的角色,而直接去做苦力。垃圾DNA中某些不編碼蛋白質的片斷,例如上述實驗裡的假基因,可能通過轉錄成RNA來發揮作用。這些片斷不是傳統意義上的基因,可稱作“RNA基因”,它們往往非常短小,難於識別,但非常重要。它們調控其它基因的表達,使這些基因開啟、關閉、更活躍或更不活躍,影響生物的體型、發育、疾病易感性等。為了避免概念混亂,有的科學家傾向不再談論基因,而將能夠轉錄成RNA的DNA序列統稱為“轉錄單位”。
蛋白質的特性由分子形狀決定,它們由許多胺基酸連成長鏈,摺疊成精巧複雜的三維空間結構。雞蛋煮熟了再也不能孵出小雞,就是因為其中的蛋白質形狀被高溫不可逆轉地破壞,失去了功能。蛋白質與其它物質作用的方式,就像鑰匙開鎖,只有結構相配,才能彼此結合。RNA則與DNA一樣,特性由鹼基序列即字母排列順序決定。如果說蛋白質是“模擬的”,那么RNA就是“數位化的”。一條ACCUCG….模樣的RNA鏈,與一串101100010…模樣的計算機數據在本質上是共通的。RNA鏈遇到與它互補的序列時與之結合,發生作用。例如,如果其互補序列正好是某個基因編碼蛋白的中間產物——信使RNA,兩者結合就阻止了該基因的表達。
RNA也能以“模擬”方式工作,像蛋白質一樣摺疊起來,通過形狀產生作用。它甚至可以是“雙模”的:非編碼DNA能產生一類稱為“核開關”的RNA,充當非常精確的遺傳開關。它由“模擬”和“數字”兩部分組成,其中“模擬”部分摺疊成複雜形狀,與特定蛋白質或化學物質結合;“數字”部分則包含某蛋白質的對應RNA編碼。若且唯若“模擬”部分與目標結合時,“數字”部分的開關打開,製造出這種蛋白質。這是一種非常有趣的結構,在動物、植物、微生物中都有發現,它影響著小鼠的毛色、枯草芽孢桿菌的新陳代謝等。這意味著核開關存在於所有三界生物的共同祖先中,誕生於進化的黎明時分。
歲月無痕
還有一些非編碼DNA,即使我們完全不了解它的功用,也可以斷定它們並不是垃圾,必定有著重要功能,“高度保留共同序列”就屬於這種。2004年一組美國科學家在《科學》雜誌上報告說,他們對比研究了人、大鼠、小鼠、雞、狗、魚等多個物種的基因組,發現其中存在一些極其相似乃至完全相同的DNA序列。這些序列位於非編碼區域中,共有480個,在人、大鼠和小鼠身上完全相同,與狗、雞、魚對應序列相似度也遠遠超過各物種基因組平均相似度。不過,在海鞘和果蠅體內找不到這些序列。人們並不知道這些高度保留序列有什麼作用。它們在人和鼠身上的版本完全相同,意味著人和鼠的祖先分家之後的7500萬年間,這些序列沒有發生任何改變,這是極其不可思議的。
為了防止偶然因素,研究者檢查的序列長度都超過200個鹼基對。從統計學上來說,這么長的序列因為獨立的偶然變異而重複出現3次,基本上是不可能的。有480個這樣的序列重複出現3次,就更不可能了。有不少人根本就懷疑這個實驗出了問題,人類的DNA污染了鼠DNA樣本。此外,這些序列在人與魚身上的版本差異很小,即在人和魚祖先分家後的4億年里改變甚微。這表明它們的穩定性對脊椎動物至關重要,微小的差異都可能造成致命的後果。如果這些區域不重要或根本沒有作用,那么偶發的變異不會被淘汰掉,而會穩定地積累下來,導致親緣較遠的生物之間序列差異非常大。
科學家猜測,有些高度保留序列可能影響著重要基因的活動,還有一些控制著胚胎髮育。這些序列彼此差異很大,從中看不出與其功能有關的線索。科學家正考慮培養出缺少某一高度保留序列的轉基因小鼠,觀察其生長發育有何異樣,由此判斷該序列的作用。這一發現再次證明,不編碼蛋白質、在傳統上被認為是垃圾的DNA,絕對不是真正的垃圾。
人們曾經猜想,越複雜的生物基因數量越多,但事實已經推翻了這種觀點。如前所述,人類基因數量與雞和河豚的基因數量相近,而水稻的基因差不多比人多一倍。阿米巴和洋蔥則證明了基因組的總體大小與生物複雜性也全無關係。到底是什麼決定了物種之間的根本差異?看來必須把傳統的基因與新近被證明是寶藏的“垃圾”結合起來考慮。
幼年宇宙的藝術想像圖
天文學家一度認為,那些在電磁波譜的各頻段閃耀光芒的星星和塵埃,就是這宇宙里的一切。然而越來越多的證據使他們認識到,宇宙中還有人類所看不見的暗物質和暗能量,而且事實上它們占去了宇宙質量的絕大部分,我們所熟悉的物質只有百分之幾。宇宙的終極命運——是永遠膨脹還是坍縮成為一個奇點?——更多地取決於這些暗影中的神秘質量。對暗物質和暗能量的研究是近年來宇宙學的重大進展,也是一項重大挑戰,因為科學家至今並沒能對它們的本質給出合理解釋。垃圾DNA可以說是基因組的暗面,它將改變生物學的面貌,就像暗物質和暗能量改變宇宙學的面貌那樣。
假基因
在“垃圾”DNA家族中,還有一類特殊的群體,稱為假基因。假基因與基因很像,但卻不能產生功能性蛋白,常常被歸類為“垃圾”DNA。科學家預計,人類假基因的數目竟然與正常基因的數量相似,大約有2萬個左右,鑑定的已超過12 000個。雖然假基因不能合成蛋白,但並不是說,它們不具有任何功能,研究發現“假”基因確有真本領。研究人員在對小鼠進行遺傳改造的時候偶然造成了一個假基因的缺失,該小鼠的後代發生嚴重的先天性缺陷,並且壽命急劇縮短,可見這種假基因的作用不可小視,它對健康生命是必須的。該假基因是其對應的基因Makorin1的缺陷拷貝,長度不到其一半大,只能產生小分子mRNA(蛋白質合成的中介物),卻不能合成蛋白質。儘管很小,但是這種“假RNA”有保護真基因免受破壞的功能。如果這個假基因在小鼠或者人類細胞中丟失的話,真基因的功能也不能正常發揮。研究人員推測,可能是由於假基因RNA看起來像Makorin1,它們掩護真基因,通過“犧牲”自己將不利因素引開,而保護真基因免受干擾。這可能是一種新的基因調節的方法。