概述
重疊基因(everlappinggene):指兩個或兩個以上的結構基因共同一段DNA順序的現象。重疊基因不僅可經濟利用基因組,而且可能起表達調控的作用。重疊基因僅在噬菌體和病毒中存在,在真核生物中尚未發現重疊基因。這可能因為前者基因組比較小,但又必須要編碼一些維持其生命和繁殖的基因,在選擇的壓力下,保留了這種重疊基因的形式。重疊基因有多種重疊方式。例如,大基因內包含小基因;前後兩個基因首尾重疊一個或兩個核苷酸;幾個基因的重疊,幾個基因有一段核苷酸序列重疊在一起,等等。重疊基因中不僅有編碼序列也有調控序列,說明基因的重疊不僅是為了節約鹼基,能經濟和有效地利用DNA遺傳信息量,更重要的可能是參與對基因的調控。
發現
重疊基因是在1977年發現的。早在1913年A.H.斯特蒂文特已在果蠅中證明了基因在染色體上作線狀排列,50年代對基因精細結構和順反位置效應等研究的結果也說明基因在染色體上是一個接著一個排列而並不重疊。但是1977年F.桑格在測定噬菌體ΦX174的DNA的全部核苷酸序列時,卻意外地發現基因D中包含著基因E。基因E的第一個密碼子(見遺傳密碼)從基因D的中央的一個密碼子TAT的中間開始,因此兩個部分重疊的基因所編碼的兩個蛋白質非但大小不等,而且胺基酸也不相同。在某些真核生物病毒中也發現有重疊基因。
意義
原核生物和一些病毒或噬菌體的基因組比較小,核苷酸對是極其有限的,那么怎樣有效地利用這些有限鹼基來編碼更多的遺傳信息呢?在生物中存在著一種十分巧妙的機制——重疊基因(overlappinggene)。它的道理就像我們古代的迴文詩一樣,如:蓮人在綠楊津采一玉漱聲歌新闕其讀法是:採蓮人在綠楊津,在綠楊津一闕新,一闕新歌聲漱玉,歌聲漱玉採蓮人。本來需要28個字才能表達完的一首詩,現在利用前後兩句之間的幾個字的重疊,結果只用了14個字就完成了。重疊基因也正是如此,利用鹼基的重疊來編碼更多的信息。
重疊基因是在1977年首先發現的,當時美國著名的科學家Sanger建立了測序方法,他就用這種測序方法對環狀單鏈的噬菌體F×174進行了測序。結果測出其基因組由5386個核苷酸組成,共有11個基因,構成3個轉錄單位,由3個啟動子(pA,pB,pD)啟動。(圖10-4)基因的產物都已被分離,它們所含的胺基酸已遠遠地超過了5386個鹼基所能編碼的量,即F-174含有的5386Nt最多能編碼1795個胺基酸,若每個胺基酸的平均分子量為110,則總的蛋白質分子量為197,000D,但實際測出的蛋白質總分子量卻為262,000D。將全部DNA順序和蛋白質的胺基酸順序進行比較,發現B基因在A0基因之中,K基因跨在A-C兩基因的連線處,和A0基因的尾部,C基因的首部相重疊,E基因在D基因內部。類似的情況在別的噬菌體如G4、微小病毒和SV40也有發現。重疊基因不僅可經濟利用基因組,而且可能起表達調控的作用重疊基因僅在噬菌體和病毒中存在,在真核生物中尚未發現重疊基因。這可能因為前者基因組比較小,但又必須要編碼一些維持其生命和繁殖的基因,在選擇的壓力下,保留了這種重疊基因的形式。在本世紀70年代以前,人們一直認為遺傳物質是雙鏈DNA,在上面排列的基因是連續的。RobertandSharp徹底改變了這一觀念。他們以腺病毒作為實驗對象,因為它的排列序列同其他高等動物很接近,包括人。結果發現它們的基因在DNA上的排列由一些不相關的片段隔開,是不連續的。他們的發現改變了科學家以往對進化的認識,對於現代生物學的基礎研究以及生物進化論具有重要的奠基作用,對於腫瘤以及其他遺傳性疾病的醫學導向研究,亦具有特別重要的意義
。真核生物的基因組十分複雜,DNA的含量也比原核生物的大得多。噬菌體由於基因組很小,但又要編碼一些必不可少的蛋白,鹼基顯然不夠用,這樣不僅幾乎所有的鹼基都參加編碼,而且在進化中還出現了“重疊基因”,以有限的基因編碼更多的遺傳信息。真核基因組正好相反,DNA十分富餘,這樣不僅無需“重疊基因”,而且很多序列不編碼,如重複序列、間隔序列(spacer)和間插序列(interveningsequence)即內含子(intron)等。但不編碼並不等於沒有功能。有的我們可能還不了解,如重複序列。間隔區和間插序列這兩個概念是不同的,間隔區是指基因間不編碼的部分,有的轉錄稱轉錄間隔區(TS),有的不轉錄稱為非轉錄間隔區(NTS)。間插序列是指基因內部不編碼的區域,也稱內含子,在初始轉錄本中存在此序列,但在加工後將被切除掉,所以常不作為翻譯的信息。間隔區常常含有轉錄的啟動子和其它上游調節序列。有的內含子也可以編碼,如成熟酶和內切酶等。在遺傳學上通常將能編碼蛋白質的基因稱為結構基因。真核生物的結構基因是斷裂的基因。一個斷裂基因能夠含有若干段編碼序列,這些可以編碼的序列稱為外顯子。在兩個外顯子之間被一段不編碼的間隔序列隔開,這些間隔序列稱為內含子。每個斷裂基因在第一個和最後一個外顯子的外側各有一段非編碼區,有人稱其為側翼序列。在側翼序列上有一系列調控序列(圖3-3)。調控序列主要有以下幾種:①在5′端轉錄起始點上游約20~30個核苷酸的地方,有TATA框(TATAbox)。TATA框是一個短的核苷酸序列,其鹼基順序為TATAATAAT。TATA框是啟動子中的一個順序,它是RNA聚合酶的重要的接觸點,它能夠使酶準確地識別轉錄的起始點並開始轉錄。當TATA框中的鹼基順序有所改變時,mRNA的轉錄就會從不正常的位置開始。②在5′端轉錄起始點上游約70~80個核苷酸的地方,有CAAT框(CAATbox)。CAAT框是啟動子中另一個短的核苷酸序列,其鹼基順序為GGCTCAATCT。CAAT框是RNA聚合酶的另一個結合點,它的作用還不很肯定,但一般認為它控制著轉錄的起始頻率,而不影響轉錄的起始點。當這段順序被改變後,mRNA的形成量會明顯減少。③在5′端轉錄起始點上游約100個核苷酸以遠的位置,有些順序可以起到增強轉錄活性的作用,它能使轉錄活性增強上百倍,因此被稱為增強子。當這些順序不存在時,可大大降低轉錄水平。研究表明,增強子通常有組織特異性,這是因為不同細胞核有不同的特異因子與增強子結合,從而對不同組織、器官的基因表達有不同的調控作用。
例如,人類胰島素基因5′末端上游約250個核苷酸處有一組織特異性增強子,在胰島素β細胞中有一種特異性蛋白因子,可以作用於這個區域以增強胰島素基因的轉錄。在其他組織細胞中沒有這種蛋白因子,所以也就沒有此作用。這就是為什麼胰島素基因只有在胰島素β細胞中才能很好表達的重要原因。④在3′端終止密碼的下游有一個核苷酸順序為AATAAA,這一順序可能對mRNA的加尾(mRNA尾部添加多聚A)有重要作用。這個順序的下游是一個反向重複順序。這個順序經轉錄後可形成一個發卡結構(圖3-4)。發卡結構阻礙了RNA聚合酶的移動。發卡結構末尾的一串U與轉錄模板DNA中的一串A之間,因形成的氫鍵結合力較弱,使mRNA與DNA雜交部分的結合不穩定,mRNA就會從模板上脫落下來,同時,RNA聚合酶也從DNA上解離下來,轉錄終止。AATAAA順序和它下游的反向重複順序合稱為終止子,是轉錄終止的信號。