定義
比較基因組學(Comparative Genomics)是基於基因組圖譜和測序基礎上,對已知的基因和基因組結構進行比較,來了解基因的功能、表達機理和物種進化的學科。利用模式生物基因組與人類基因組之間編碼順序上和結構上的同源性,複製人類疾病基因,揭示基因功能和疾病分子機制,闡明物種進化關係,及基因組的內在結構。
方法及思路
模式生物基因組研究揭示了人類疾病基因的功能,利用基因順序上的同源性複製人類疾病基因,利用模式生物實驗系統上的優越性,在人類基因組研究中的套用比較作圖分析複雜性狀,加深對基因組結構的認識。
“一個物種的不同器官之間的差異要比與另一物種的同一器官之間的差異大的多。”
相似性 (similarity)
同源性 (homology)
直系同源 (orthology)
旁系同源 (paralogy)
直系同源與旁系同源
直系同源的序列因物種形成(speciation)而被區分開(separated):若一個基因原先存在於某個物種,而該物種分化為了兩個物種,那么新物種中的基因是直系同源的;
旁系同源的序列因基因複製(gene duplication)而被區分開(separated):若生物體中的某個基因被複製了,那么兩個副本序列就是旁系同源的。直系同源的一對序列稱為直系同源體(orthologs),旁系同源的一對序列稱為旁系同源體(paralogs)。
直系同源體通常有相同或相似的功能,但對旁系同源體則不一定:由於缺乏原始的自然選擇的力量,複製出的基因副本可以自由的變異並獲得新的功能。
種間比較
通過對不同親緣關係物種的基因組序列進行比較,能夠鑑定出編碼序列、非編碼調控序列及給定物種獨有的序列。而基因組範圍之內的序列比對,可以了解不同物種在核苷酸組成、同線性關係和基因順序方面的異同,進而得到基因分析預測與定位、生物系統發生進化關係等方面的信息。
全基因組的比較研究
比較基因組學的基礎是相關生物基因組的相似性。兩種具有較近共同祖先的生物,它們之間具有種屬差別的基因組是由祖先基因組進化而來,兩種生物在進化的階段上越接近,它們的基因組相關性就越高。如果生物之間存在很近的親緣關係,那么它們的基因組就會表現出同線性(synteny),即基因序列的部分或全部保守。這樣就可以利用模基因組之間編碼順序上和結構上的同源性,通過已知基因組的作圖信息定位另外基因組中的基因,從而揭示基因潛在的功能、闡明物種進化關係及基因組的內在結構。
系統發生的進化關係分析
生物其中一個特徵是進化,比較基因組學同樣以進化理論作為理論基石,同時其研究結果又前所未有地豐富和發展了進化理論。當在兩種以上的基因組間進行序列比較時,實質上就得到了序列在系統發生樹中的進化關係。基因組信息的增多使得在基因組水平上研究分子進化、基因功能成為可能。通過對多種生物基因組數據及其垂直進化、水平演化過程進行研究,就可以對與生命至關重要的基因的結構及其調控作用有所了解。但由於生物基因組中約有1.5%~14.5%的基因與“橫向遷移現象”有關,即基因可以在同時存在的種群間遷移,這樣就會導致與進化無關的序列差異。因此在系統發生分析中需要建立較完整的生物進化模型,以避免基因轉移和欠缺合適的多物種共有保守序列的影響。
種內比較
同種群體內基因組存在大量的變異和多態性,正是這種基因組序列的差異構成了不同個體與群體對疾病的易感性和對藥物與環境因子不同反應的遺傳學基礎。
單核苷酸多態性
單核苷酸多態性(single-nucleotide polymorphism,SNP)是指在基因組水平上由於單個核苷酸位置上存在轉換或顛換等變異所引起的DNA序列多態性。根據SNP 在基因中的位置,可分為基因編碼區SNP(coding-region SNP,cSNP)、基因周邊SNP(perigenic SNP,pSNP)以及基因間SNP(intergenic SNP,iSNP)等3 類。2005年2月17日公布的第一份人類基因多態性圖譜是依據基因“連鎖不平衡原理”,利用基因晶片在71 個歐洲裔美國人(白色人種)、非洲裔美國人(黑色人種)和漢族華裔美國人(黃色人種)中鑑別出了158 萬個單一核苷酸變異的DNA 位點,這個圖譜將有助於預測某些疾病發生的可能性以及施以最佳治療方案,在實現基於基因的個體化醫療目標的征途上走出了重要的一步。
拷貝數多態性
在全基因組測序和基因晶片技術發明前,受限於基因組內高通量DNA拷貝數檢測手段,人們對全基因組範圍內的拷貝數多態性(copy number polymorphism,CNP)數量和分布知之甚少。2004年,全球內數個“人類基因組計畫”研究基地意外地發現,表型正常的人群中,不同的個體間在某些基因的拷貝數上存在差異,一些人丟失了大量的基因拷貝,而另一些人則擁有額外、延長的基因拷貝,研究人員稱這種現象為“基因拷貝數多態性”。正是由於CNP 才造成了不同個體間在疾病、食慾和藥效等方面的差異。研究表明,平均2 個個體間存在11 個CNP的差異,CNP 的平均長度為465 kb,其中半數以上的CNP 在多個個體中重複出現,並經常定位於其他類型的染色體重排附近。