簡介
基因識別,是生物信息學的一個重要分支,使用生物學實驗或計算機等手段識別DNA序列上的具有生物學特徵的片段。基因識別的對象主要是蛋白質編碼基因,也包括其他具有一定生物學功能的因子,如RNA基因和調控因子。基因識別是基因組研究的基礎。
在早期,基因識別的主要手段是基於活的細胞或生物的實驗。通過對若干種不同基因的同源重組的速率的統計分析,我們能夠獲知它們在染色體上的順序。若進行大量類似的分析,我們可以確定各個基因的大致位置。現在,由於人類已經獲得了巨大數量的基因組信息,依靠較慢的實驗分析已不能滿足基因識別的需要,而基於計算機算法的基因識別得到了長足的發展,成為了基因識別的主要手段。
識別具有生物學功能的片段與判定該片段(或其對應的產品)的功能是兩個不同的概念,後者通常需要通過基因敲除等的實驗手段來決定。不過,生物信息學的前沿研究正在使得由基因序列預測基因功能變得愈發可能。
間接識別法
在基因的間接識別法(Extrinsic Approach)中,人們利用已知的mRNA或蛋白質序列為線索在DNA序列中搜尋所對應的片段。由給定的mRNA序列確定唯一的作為轉錄源的DNA序列;而由給定的蛋白質序列,也可以由密碼子反轉確定一族可能的DNA序列。因此,線上索的提示下搜尋工作相對較為容易,搜尋算法的關鍵在於提高效率,並能夠容忍由於測序不完整或者不精確所帶來的誤差。BLAST是目前以此為目的最廣泛使用的軟體之一。
若DNA序列的某一片段與mRNA或蛋白質序列具有高度相似性,這說明該DNA片段極有可能是蛋白編碼基因。但是,測定mRNA或蛋白質序列的成本高昂,而且在複雜的生物體中,任意確定的時刻往往只有一部分基因得到了表達。這意味著從任何單個細胞的mRNA和蛋白質上都只能獲得一小部分基因的信息;要想得到更為完整的信息,不得不對成百上千個不同狀態的細胞中的mRNA和蛋白質測序。這是相當困難的。比如,某些人類基因只在胚胎或胎兒時期才得到表達,對它們的研究就會受到道德因素的制約。
儘管有以上困難,對人類自身和一些常見的實驗生物如老鼠和酵母菌,人們已經建立了大量轉錄和蛋白質序列的資料庫。如RefSeq資料庫,ENSEMBL資料庫等等。但這些資料庫既不完整,也含有相當數量的錯誤。
從頭計算法
鑒於間接識別法的種種缺陷,僅僅由DNA序列信息預測蛋白質編碼基因的從頭計算法(Ab Initio Approach)就顯得十分重要了。一般意義上基因具有兩種類型的特徵,一類特徵是“信號”,由一些特殊的序列構成,通常預示著其周圍存在著一個基因;另一類特徵是“內容”,即蛋白質編碼基因所具有的某些統計學特徵。使用Ab Initio方法識別基因又稱為基因預測。通常我們仍需藉助實驗證實預測的DNA片段是否具有生物學功能。
在原核生物中,基因往往具有特定且容易識別的啟動子序列(信號),如Pribnow盒和轉錄因子。與此同時,構成蛋白質編碼的序列構成一個連續的開放閱讀框(內容),其長度約為數百個到數千個鹼基對(依據該長度區間可以篩選合適的密碼子)。除此之外,原核生物的蛋白質編碼還具有其他一些容易判別的統計學的特徵。這使得對原核生物的基因預測能達到相對較高的精度。
對真核生物(尤其是複雜的生物如人類)的基因預測則相當有挑戰性。一方面,真核生物中的啟動子和其他控制信號更為複雜,還未被很好的了解。兩個被真核生物基因搜尋器識別到的訊號例子有CpG islands及poly(A) tail的結合點。
另一方面,由於真核生物所具有的splicing機制,基因中一個蛋白質編碼序列被分為了若干段(外顯子),中間由非編碼序列連線(基因內區)。人類的一個普通蛋白質編碼基因可能被分為了十幾個外顯子,其中每個外顯子的長度少於200個鹼基對,而某些外顯子更可能只有二三十個鹼基對長。因而蛋白質編碼的一些統計學特徵變得難於判別。
高級的基因識別算法常使用更加複雜的機率論模型,如隱馬爾可夫模型。glimmer是一個廣泛套用的高級基因識別程式,它對原核生物基因的預測已非常精確,相比之下,對真核生物的預測則效果有限。GENSCAN計畫是一個著名的例子。
比較基因組學的方法
由於多個物種的基因組序列已完全測出,使得比較基因組學得以發展,並產生了新的基因識別的方法。該方法基於如下原理:自然選擇的力量使得基因和DNA序列上具有生物學功能的其他片段較其他部分有較慢的變異速率,在前者的變異更有可能對生物體的生存產生負面影響,因而難以得到保存。因此,通過比較相關的物種的DNA序列,我們能夠取得預測基因的新線索。2003年,通過對若干種酵母基因組的比較,人類對原先的基因識別結果作了較大的修改;類似的方法也正在套用於人類的基因組研究,並可能在將來的若干年內取得成果。
相似基因相互識別的新機制
《Journal of Physical Chemistry B》2008年1月24日發表的新研究稱,就算沒有任何蛋白或其他的生物分子幫助,基因也能夠找到遙遠的“親朋好友”——也就是那些與它鹼基序列相似的基因。這個發現闡明了,相似的基因如何搜查到對方,然後聚集在一起進行物種進化的重組過程。該研究結果證明,具有雙螺鏇結構的線狀DNA,也就是基因,能識別具有相似鹼基的其他基因。
搜尋到對方,是基因相互識別和彼此聯合的關鍵。只有基因識別和聯合之後,才能開始同源重組的過程,也就是雙螺鏇DNA分子靠近、解開和交換部分遺傳信息,然後自身再次閉合的過程。
重組在進化和自然選擇中起到關鍵的作用,並且也是體內修復DNA損傷主要工具,是一個非常重要的反應過程。 在此以前,科學家不確切知道這個過程開始時,相配的基因鹼基對是如何搜尋到對方的。
該研究小組中的兩人在2001年首次提出,相同的雙鏈DNA長片段可以彼此識別,僅僅由於它們兩者攜帶互補電荷的結果。這項新研究的作者進行一系列實驗,以檢驗這個理論。他們想驗證,在兩個分子之間沒有直接接觸或沒有促進蛋白的存在,這種搜尋過程照樣可以發生。
先前的研究提出,僅有10個鹼基對的短鏈DNA,兩者之間的識別與蛋白質有關。這個新研究顯示,有好幾百鹼基對的長鏈DNA鏈,在沒有蛋白質情況下,似乎能作為一個整體來彼此識別。根據這個理論,基因越長,識別的機械作用也越強。
研究人員觀察了螢光標記DNA分子在純的溶液中的行為。他們發現,與有不同的序列的DNA分子相比,有相同的鹼基的DNA分子聚集一起的可能性大約是兩倍。
倫敦帝國大學的Alexei Kornyshev教授、該研究的作者之一,闡明了該研究結果的意義: "在一團擁擠中,沒有任何外部的幫助,相同的DNA分子能夠搜尋到彼此。觀察到這點實在激動人心。這可以給相似的基因提供推動力,讓它們在沒有蛋白質或其他的生物因子的情況下,開始複雜的重組過程。 我們小組的試驗結果看來符合這種推測。"
理解遺傳重組第一個識別階段的精確機制,有助於說明在進化、自然選擇和DNA修復過程中,機體如何儘量減少重組錯誤。這是非常重要的,因為這種錯誤被認為是老化,以及許多包括癌症和某些老年痴呆病在內的遺傳疾病的誘因。理解這些機制,對今後生物技術和基因療法中精確的人工重組也是必要的。
該小組目前繼續進一步的實驗工作,以確切判定這些相互作用如何進行,如預期的DNA長度依賴性。 此外,需要更進一步的研究來確定,這些在試管發現的相互作用是否也發生在活細胞高度複雜環境中。