簡介
除反轉錄病毒外,反轉錄轉座子可以分成兩類:一類是病毒超家族(viral superfamily),這類反轉錄轉座子編碼反轉錄酶或整合酶(integrases),能自主地進行轉錄,其轉座的機制同反轉錄病毒相似,但不能像反轉錄病毒那樣以獨立感染的方式進行傳播;另一類是非病毒超家族(nonviral superfamily),自身沒有轉座酶或整合酶的編碼能力,而在細胞內已有的酶系統作用下進行轉座。病毒超家族同非病毒超家族都來源於細胞內的轉錄物,兩者的明顯區別在於病毒超家族成員的DNA分子兩端有長末端重複序列(long terminal repeats,LTR),這是反轉錄病毒DNA基因組的特徵性結構,非病毒超家族的成員沒有LTR結構。同時,病毒超家族成員都能編碼產生轉座酶或整合酶,或者二者兼而有之,所以能自主地進行轉座。非病毒超家族成員不產生有生物學活性的酶,因此不能進行自主轉座。但所有反轉錄轉座子都有一個共同的特點,即在其插入位點上產生短的正向重複序列。分類
反座子可大致分為兩類逆轉錄病毒是典型的反座子,它們能編碼逆轉錄酶和/或整合酶,因此能進行轉座。轉座子和逆轉錄病毒的區別在於轉座子不能獨立地感染其它細胞,但轉座機制基本相似。這類番座子被稱為病毒超家族(Viral superfamily) 。
另一類反座子是有獨特的外部和內部特徵,它們都來源於RNA 序列,雖然我們只能推測其DNA 拷貝的產生機制,但可以推測它們是某些其它系統的酶催化的轉座靶序列,可能源於細胞轉錄。這類轉座子並不編碼有轉座功能的蛋白質,稱為非病毒超家族(Nonviral superfamily) 。
哺乳動物基因組含有很多相對短但彼此相關的序列,其重要部分包含轉座子。大部分可歸納為兩個家族,即長散布重複序列(LINES) 和短散布重複序列(SINES) 。這些成分當初曾被認為是一些分散重複序列:每個家族都包含許多成員分散在基因組中。LINES 和SINES 的一個更重要的區別是,LINES 是RNA 聚合酶Ⅱ的轉錄物,而SINES 則是RNA 聚合酶Ⅲ的轉錄物。
哺乳動物基因組包含20,000~0,000 拷貝的LINES ,稱為L1。其典型結構大約6500bp 長,末端富含A,內部可能存在開放讀框。例如,一個已經被測序的元件有兩個開放讀框,分別為1137bp 和3900bp,二者有14 個bp 重疊。已經發現它們能夠被轉錄。就像在重複DNA 中一樣,LINES 家族的每個成員都有所不同。但在一個物種中的家族成員比種系間表現出更大的同源性。
業已證明,活性Ty 元件具有轉座活性。我們認為果蠅基因組中的copia 序列可能也同樣具有轉座活性。
LINES 元件和其它一些成員無LTR,LTR 是逆轉錄病毒的典型結構。這就提出了一個問題: 它們的逆轉錄是怎樣進行的呢?它們不包括典型的tRNA 引物與LTR 的配對過程。這些元件中不存在涉及逆轉錄作用的開放讀框,如編碼蛋白質酶或者整合酶,但卻含有類逆轉錄酶編碼序列,其產物可能有內切核酸酶活性。
反轉座子編碼的核酸內切酶活性將靶基因位點切口。其相關RNA 產物結合到切口上。切口提供一個3¢-OH 末端,以此為引物,以RNA 為模板合成cDNA。然後打開DNA 的另一條鏈並產生缺口,接著或在RNA/DNA 雜交分子轉變成雙鏈DNA 後,將其到切口的另一末端。有些可移動內含子(Mobile intron)也使用相同的機制。
LINES 來源RNA 聚合酶Ⅱ轉錄,因此其相應基因組序列本質上應無活性:它們缺少轉錄需要的起始位點上游的啟動子。它們通常具有成熟轉錄產物的特徵,因此被稱為加工假基因(Processed pseudogens) 。
RNA 聚合酶Ⅱ的任何轉錄產物都能產生假基因,這種例子很多,其中包括第一個被發現的珠蛋白假基因。
如果假基因DNA 序列確實來自RNA,它應該從相當於RNA 的5¢末端的位點開始。許多假基因是由剪下連線的外顯子組成,但在DNA 中不存在識別內含子的機制,所以此過程可能時通過RNA 中間體來完成的。假基因通常以一段的A?T 序列結尾,推測它可能來源於poly(A) 尾。假基因的每一端都是短的同向重複序列,可能是由類轉座(Transposon-like) 形成的。加工假基因的位置和原來基因的位置沒有關係。
加工假基因不攜帶任何用來起始轉錄的信息(或者實現將RNA 逆轉錄的功能),加工過程能否被逆轉錄病毒改變呢?它是由異常的細胞系統所完成的么?被轉錄序列的末端是與轉座子的末端序列相似也可能完全是偶然事件。
轉座現在還在基因組中繼續發生嗎?還是我們發現的只是以前發生轉座的遺蹟?必須注意,轉座子要存活下去就必須在生殖細胞中發生。當然,相似的事件可在體細胞中發生,但它們不能遺傳給下一代。
最典型的SINES 由一個單一家族成員組成。它們非常短並且有很高的重複性,除其成員在整個基因組中散布分布而非成簇分布外,與簡單序列DNA 非常相像。同時種內成員的相似性要大於種間的相似性。
在人類基因組中,大部分中度重複序列長約300bp ,並且分散於非重複序列中。至少大部分復性的雙螺鏇DNA 被限制酶AluⅠ消化後,能產生170bp 的產物。所有能被酶切的序列都是同一家族的成員,該家族稱為Alu 家族(Alu family) 。在雙倍體基因組中,大約有300,000 個成員(相當於每6kb 就由一個)。單個Alu 序列非常分散。相關序列也存在於小鼠 (有50,000 個成員被稱為B1 家族)、中國大鼠(Hamaster ,稱為Alu 等價家族)和其它動物。
每個Alu 家族的成員只是相關而不是相同。人類的Alu 家族可能有一個130bp 的序列隨機加倍重複產生,其右端插入一個31bp 的無關序列。兩個重複有時被稱為Alu 左半部(Left half) 和右半部(Right half),Alu 家族的每個成員平均與共有序列有87% 相似性。小鼠B1 家族的重複單位長130bp,很像人類重複單位的一個單體,與人類的序列有70~80% 的同源性。
Alu 序列和7SL RNA 相關。7SL RNA 是信號識別顆粒的一個組分,其序列和Alu 序列的左半部類似,只是在中部有一個插入。所以7SL RNA 5¢端的90 個鹼基和Alu 的左邊末端是同源的。7SL RNA 的中部160 個鹼基和Alu 並不同源,但其3¢端的40 個鹼基和Alu 的右邊末端是同源的。編碼7SL RNA 的基因由RNA 聚合酶Ⅲ轉錄,因此。非活性的Alu 序列可能是這些基因(或者相關基因)產生的。
Alu 家族的成員和轉座子類似,其兩端都是短的同向重複。但它們表現出非同尋常的特徵,家族中不同成員間的序列長度參差不一。此外,由於它們來源於RNA 聚合酶Ⅲ的轉錄產物,所以某些成員可能攜帶內源性活性啟動子。雖然其多變性和廣泛分布特性提供其功能的一些線索,但現在對其具體作用還知之甚少。
至少,Alu 家族的部分成員能被轉錄為RNA。中國大鼠Alu 類家族的一些成員(不是所有)似乎能在體內被轉錄,這類轉錄單位常位於其它轉錄單位附近。
Alu 家族成員可能存在於其它結構基因的轉錄單位內部,如存在於長的核RNA 中。在一個核RNA 分子上若存在Alu 序列的多個拷貝,則能使其產生二級結構。實際上哺乳動物核RNA 的二級結構多數是由Alu 家族成員的插入造成。