分子系統學
分子系統學是指通過對生物大分子(蛋白質、榜酸等)的結構、功能等的進化研究,來闡明生物各類群(包括已絕滅的生物類群)間的譜系發生關係[ .相對於經典的形態系統分類研究,由於生物大分子本身就是遺傳信息的載體,含有龐大的信息量,且趨同效應弱,因而其結論更具可比性和客觀性.尤為重要的是,一些缺乏形態性狀的生物類群(如微生物和某些低等動、植物)中,它幾乎成為探討其系統演化關係的唯一手段.由於分子系統學的上述特點,自其誕生之日起,就逐漸在各種生物類群的系統發生研究中得到了廣泛的套用.總的說來,迄今分子系統學的研究所獲得的生物類群間親緣關係的結果,大多都和經典的形態系統樹相吻合.但是,在一些生物進化譜系不明或模糊關鍵環節上,它得出的結果卻往往和形態系統學的推測大相逕庭.
1 分子系統學研究的一般步驟
分子系統學研究的主要方法是根據分子生物學數據構建生物類群的譜系發生樹.它一般包括以下程式:
首先確定所要分析的生物類群,選擇該類群中相關亞類群的一些代表種類;確定所要分析的目的生物大分子
(包括DNA序列、蛋白質序列等)或它們的組合;設法獲得它們的序列數據或其它相關數據(如限制性內切
酶(I LP)、隨機擴增多態DNA( )、DNA序列等),DNA序列的數據可以通過GenBank獲得,也可以
通過實驗室的研究(設計特異引物進行PCR擴增和序列測定)而獲得;對獲得的相關數據進行比對(pairwise
alignment)或其它的數學處理,如轉變成遺傳距離數據矩陣;通過一些遺傳分析軟體(常用的計算機軟體如:PHYLIP J、PAI J、MEGA[J等)對這些處理後的數據,並基於一定的反映DNA序列進化規律的數學模型
構建分子系統樹;對構建的系統樹做相應的數學統計分析以檢驗系統樹的可靠性等.值得注意的是,在分析
具體的研究對象時,上述各個環節是緊密聯繫的一個整體,要獲得一個正確的結論,必須綜合考慮每一環節
之間的內在聯繫.比如目的基因的選擇、數據處理和分析的分類群之間、構樹方法和分析軟體的選擇之間都
有密切的聯繫.

2.1 基因樹和物種樹
分子系統學的目的就是通過基因樹來推測物種樹.基因樹是根據生物大分子的序列數據(主要為DNA
序列數據)構建的譜系樹,物種樹則是反映物種實際種系發生的譜系樹.人們期待著得到的基因樹和物種樹
相一致,然而實際情況往往並非如此.Nei(1987)描繪了二種譜系樹之間所有可能的關係,認為二種譜系樹之間至少存在二個方面的差異:一是基因樹的分化時間早於物種樹,二是基因樹的拓撲結構可能與物種樹不一致(二個或多個基因樹之間存在著差異)[77,如何將由多個基因或基因組建立的基因樹綜合成一個物種樹,是分子系統學面臨的一個主要難題.Maddison(1997)認為:基因重複所導致的並源而非直源關係的產生,不同生物類群問基因的水平轉移,系統演化分歧事件發生後產生的分子性狀的多型性引起的譜系選擇等生物學因素是造成二者不一致的主要原因[8].
相應地,分子系統學研究中一定要選擇直源基因而非並源基因,選擇水平轉移事件較少的樹,採用基於大量獨立進化的基因位點進行分析等等,都不失為一種行之有效的方法,更有利於獲得一個可靠的樹.
2.2 分類群的選擇
分子系統學研究中如何選擇所研究的對象—— 內類群的選擇是一個非常值得注意的問題.內類群選擇
(內類群的數目及選擇依據等)的科學性與否直接影響到所得結論的可靠性.關於內類群的數目,目前大多數
分子系統學家認為,當所分析的序列長度一定時,儘量選擇較多的分類群有助於獲得更準確的結論,加j.而內類群選擇的依據主要體現在:(1)結合古生物學,形態學等各方面證據,儘量保證所選擇的分類群確為一個單系發生的類群;(2)分類群的選擇並非是隨機的,儘量使其在所研究的生物類群中具有代表性;(3)在某些因具有明顯長枝效應(或短枝效應)而導致的系統關係不確定的分支間增加分類群有助於減弱或消除這種效應[91.另外,在構建分子系統樹中,同樣需要選擇外類群以確定系統發生樹的基部位置,從而確定進化的方向.外類群的選擇可以是單個(單一外類群),也可以是多個(複合外類群).
在所研究的內類群數目不多且二者之間的極性關係十分確定的情況下,單個外類群足以說明問題.而在較為複雜的分析中,通常選擇複合外類群以保證所得結論的可靠性[11].隨機選擇的外類群,極有可能因為親緣關係較遠,導致所得結果的不確定性增大.因此,在選擇外類群時,必須結合其它分類學上的證據,或者在做詳細的系統發育研究之前,首先對所研究的內、外群的關係進行初步探討,以便於選擇較為理想的外類群.最理想的外類群應該是該內群的姐妹群,因為二者間擁有較多的共近裔性狀.
2.3 目的基因的選擇
分子系統學研究中目的基因的選擇也是一個至關重要的問題.一般來說,要根據所研究的具體分類群選
擇適宜的基因:在高級分類階元(科級以上)間的系統發生分析中,選擇一些在進化中較為保守的基因或基因
片段(如核編碼的蛋白質(酶)基因、核糖體基因(18S rRNA基因、28S rRNA基因)等);在較低級的分類階元
間,可以選擇進化速率較快的基因或基因片斷(如某些核編碼基因的內含子或轉錄間隔區(ITS)以及一些細
胞器基因(線粒體基因和葉綠體基因)等).
當然,每一個具體的研究對象,可以選擇的基因數目可以是多個的,至於哪些是最有效的,這通常要依據具體情況做比較分析後才能得出結論.條件允許的話,可以作多基因或多基因組合分析後尋求一致樹來加以解決.有時針對某些涉及到多種層次分類階元的複雜分類群時,還可以採取組合分析的方法:即推斷位於系統樹基部的深層次的譜系發生時,運用較保守的基因作為目的基因;推斷位於系統樹中段的譜系發生時,採用進化速率較為適中的基因;在系統樹頂端的終端分類單元時,採用進化速率較快的基因.這樣可以在不同階層的演化關係中都獲得可信的結果[ ].
2.4 基因序列數據的比對
選擇了適宜的目的基因並通過基因的擴增(PCR技術)和序列測定後,就獲得了各個目標生物類群的
DNA序列數據,對所獲得的同源DNA序列進行比對是分析中的關鍵環節.所謂比對是指通過插入間隔
(gaps)的方法,使不同長度的序列對齊達到長度一致,並確保序列中的同源位點都排列在同一位置.其中間
隔的處理對後續的系統學分析有明顯的影響[ ,:4].序列比對目前通常基於以下二種原理:點標(dot plot)法和記分距陣(scoring ma仃ix)法[15].
對於分類群數目較少且序列較短的對位排列,用肉眼判斷,手工排序就能完成.但隨著序列數目和長度的增加,即多序列對位排列(multiple sequence alignment)的l難度隨之增大.因而電腦程式已成為多序列比對必不可少的工具,Clustal系列軟體[ ]是目前較為常用的排序程式.當然,軟體自動排序的結果不可避免地會出現一些偏差,在此情況下,肉眼辨別和基於某些序列結構特徵(如rRNA基因的二級結構等)的手工校正成為一種重要的補充手段.另外處理某些得失位點(indels)和多次替換位點是排序中一個十分棘手的事情,此時往往需要藉助個人積累的經驗和相應的數學方法、設計統計學模式以估算發生多次替換的數目而加以修正.
2.5 基因樹的構建方法
目前,構建基因樹的方法很多,常用的主要有二大類:即距離法(distancemethod)、和具體性狀法(dis—cretecharacter method).前者是將序列數據轉變成數據(遺傳距離)矩陣,然後通過此數據矩陣構建系統樹;後者直接分析序列上每個核苷酸位點所提供的信息構建系統樹,它又包括最大簡約法(MP)和最大似然法
( )以及由ML法延伸的貝葉斯法(Bayesianmetl-,od).
2.5.1 距離法:
該方法基於這樣一種假設,即只要獲得一組同源序列間的進化距離(遺傳距離),那么就可以重建這些序
列的進化歷史.距離法中以鄰接法(NJ)最為常用.NJ法是由Saitou和Nei(1987)提出,其原理是逐步尋找新
的近鄰種類(序列),使最終生成的分子樹的遺傳距離總長度為最小[17].該法雖並不檢驗所有可能的拓撲結
構,但在每階段諸物種(序列)聚合時都要套用最小進化原理,故而被認為是ME的一種簡化方法.
由於分析
程式大大簡化,費時較少,適於分析較大的數據集,目前已成為距離法分析中最通用的一種方法.NJ法不包
含速率一致的假設,通過採用“校正”距離矩陣來減少各分支速率的影響,因而系統樹的正確與否依賴於校正距離係數的準確性.當序列較短時,計算仍可能有較大的統計誤差.NJ法由於僅限於數據矩陣的統計值,相對於後述的具體位點的分析方法,其最大優勢是運算十分簡便而快捷.但是該法的不足之處是,由於不考慮各個位點的具體情況而丟失了一些有用的遺傳信息,另外,通過這一方法得出的枝長估算值不具有確定的進化意義.
2.5.2 最大簡約法
該方法源於形態學的分支系統學研究,而最早被Fitch(1971)用於核苷酸數據研究.它是一種最最佳化標準,遵循“奧卡姆剃刀(Ockharn’S razor)原理,即假設由一祖先位點替換為另一位點時,發生的替換數目最少的事件為最可能發生的事件[18].在實際套用中,由於MP法只考慮所謂的“信息位點”,所得的進化樹是最短的、也是變化最少的進化樹.因而,簡約法的“最小核苷酸替換數目”原則也意味著“異源同型事件(homoplastic event)(即平行替換、趨同替換、同時替換和回復突變等)最少.
就序列上的位點來說,它沒有明確的假設,無須估計核苷酸替換時所用的各種數學模型,且當序列問的分化程度較小、序列長度較大且核苷酸替換率較穩定的情況下,該法能獲得更為真實的拓撲結構[19].反之,當序列較短且序列間的進化速率差異較大或替換形式不同時,異源同型事件出現的機率就大,產生所謂的“長枝吸引”或“短枝吸引”效應,而得出錯誤的拓撲結構.另外,由於MP法需要比較大量的拓撲結構,當序列數目和長度較大時,運算過程非常耗時.
2.5.3 最大似然法
該法最早由Felsenstein(1981)提出,其原理是以一個特定的替代模型分析一組既定的
序列數據,使獲得的每一個拓撲結構的似然率均為最大,再挑出似然率值最大的拓撲結構作為最終樹[ .這
里所分析的參數是每個拓撲結構的枝長,並對似然率的最大值來估算枝長.
迄今的研究表明,在分類群數目較大、序列長度較長的複雜分析中,ML法的分析結果優於其它任何方法[15].但由於該法涉及到全部序列的所有核苷酸位點的替換數,加之假設的替換模型包含一組可變參數(如轉換/顛換比等).所以該法和MP法一樣,當序列數目和長度較大時,構建NIL樹是極其耗時的,同時當序列數目足夠大而序列長度很小時,和MP法一樣,它也容易給出錯誤的拓撲結構.