結構進化樹
隨著X-ray、NMR等實驗技術的的進步,蛋白質結構數據的數量日益增多,結構精度也越來越高,使得結構比較更為可行。目前已經發現許多蛋白的一級序列差異很大,難以通過序列比對進行分子進化的研究,但它們的空間拓撲結構仍然很相似,可以進行結構疊合比較、分析它們之間的進化關係,這表明結構比較可以比序列比較獲得更多更精確的結構信息。研究發現蛋白質結構比序列的保守性更強,進化過程中蛋白質序列可能發生變化,但它的摺疊模式更為保守,即使是70%的序列發生變化,它的摺疊模式也不會有很大的改變。蛋白質分子的結構比較與蛋白質一級序列比較法相比,具有更高的優越性。 目前有關蛋白質結構比較的研究方法很多,主要有剛體結構疊合比較、多特徵的結構比較等方法。前者用比較後確定的拓撲等價位點的個數或等價位點Cα原子距離的均方根值作為不同結構間差異性的量度(結構進化樹);後者用蛋白質結構的多項特徵如殘基的物理特性、殘基的空間傾向性、主側鏈的方向、主鏈的二面角、二級結構類型和主側鏈的可接近性等綜合指標作為結構的差異性量度,有時稱此類方法構建的結構進化樹為“類結構”進化樹。 剛體疊合所構建的進化樹適用於同源蛋白質結構預測的骨架結構的選擇,基於序列的進化樹便於描述類似性較大的蛋白質的進化關係,而結構的多特徵比較則適用於分析分歧較大的蛋白質結構。
剛體結構疊合比較
當已知2個以上同源蛋白質的晶體結構時,可將每兩套結構的原子坐標進行最佳疊合,確定類似結構中完整的一套殘基等價位點,並使等價位點間的距離平方和最小,這樣便得到各結構的拓撲等價區。通常將結構簡化為一系列Cα位置,等價位點被定義為在重疊結構中位於某個特定距離範圍(不大於3埃)之內的Cα原子。通過計算不同結構等價位點的個數或計算多個結構的等價位點Cα距離的均方根值作為不同結構間差異性的度量。再根據一般的建樹方法,給出幾個結構的進化關係。 剛體結構疊合方法需要蛋白質的晶體結構數據的質量要高。事實上,相對於序列而言,已測定的蛋白質晶體結構很少,許多同源蛋白質的結構並不知道。其次,儘管同源蛋白質具有相同的摺疊結構,它們的二級結構成分則經歷形變、相對平移和旋轉使側鏈達到最佳化的包裝以適應進化的壓力。對於序列相同率為30%的兩個蛋白質,由剛體疊合所確定的拓撲等殘基的均方根差大約為1.5埃,而且殘基數可能只占全部殘基數的1/3。它可能不足以進行結構比較。因此需要發展一種更靈活的確定拓撲等價位點的方法,並且要把二級結構成分的相對運動和變形也考慮進去。
多特徵結構比較
相關軟體 Phylip PHYLIP是一個包含了大約30個程式的軟體包,這些程式基本上囊括了系統發育的所有方面。PHYLIP是免費軟體,並且可以在很多平台上運行(Mac, DOS, Unix, VAX/VMS, 及其它)。PHYLIP目前已經是最廣泛使用的系統發育程式。
根據蛋白質的序列或結構差異關係可構建分子進化樹(evolutionary tree)或種系發生樹(phylogenetic tree)。進化樹給出分支層次或拓撲圖形,它是產生新的基因複製或享有共同祖先的生物體的歧異點的一種反映,樹枝的長度反映當這些事件發生時就存在的蛋白質與現在的蛋白質之間的進化距離。根據進化樹不僅可以研究從單細胞有機體到多細胞有機體的生物進化過程,而且可以粗略估計現存的各類種屬生物的分歧時間。通過蛋白質的分子進化樹分析,為從分子水平研究物種進化提供了新的手段,可以比較精確的確定某物種的進化地位。對於物種分類問題,蛋白質的分子進化樹亦可作為一個重要的依據。
構建進化樹的方法包括兩種:一類是序列類似性比較,主要是基於胺基酸相對突變率矩陣(常用PAM250)計算不同序列差異性積分作為它們的差異性量度(序列進化樹);另一類在難以通過序列比較構建序列進化樹的情況下,通過蛋白質結構比較包括剛體結構疊合和多結構特徵比較等方法建立結構進化樹。
序列進化樹
構建序列進化樹的主要步驟是比對,建立取代模型,建立進化樹以及進化樹評估。 1.建立數據模型(比對)
建立一個比對模型的基本步驟包括:選擇合適的比對程式;然後從比對結果中提取系統發育的數據集,至於如何提取有效數據,取決於所選擇的建樹程式如何處理容易引起歧義的比對區域和插入/刪除序列(即所謂的indel狀態或者空位狀態)。一個典型的比對過程包括:首先套用CLUSTALW程式,然後進行手工比對,最後提交給一個建樹程式。這個過程有如下特徵選項:(1)部分依賴於計算機(也就是說,需要手工調整);(2)需要一個先驗的系統發育標準(即需要一個前導樹);(3)使用先驗評估方法和動態評估方法(推薦)對比對參數進行評估;(4)對基本結構(序列)進行比對(對於親水胺基酸,推薦引入部分二級結構特徵);(5)套用非統計數學最佳化。這些特徵選項的取捨依賴於系統發育分析方法。 2.決定取代模型
取代模型既影響比對,也影響建樹;因此需要採用遞歸方法。對於核酸數據而言,可以通過取代模型中的兩個要素進行計算機評估,但是對於胺基酸和密碼子數據而言,沒有什麼評估方案。其中一個要素是鹼基之間相互取代的模型;另外一個要素是序列中不同位點的所有取代的相對速率。還沒有一種簡單的電腦程式可以對較複雜的變數(比如,位點特異性或者系統特異性取代模型)進行評估,同樣,現有的建樹軟體也不可能理解這些複雜變數。 3.建樹方法
三種主要的建樹方法分別是距離、最大節約(maximum parsimony, MP)和最大似然(maximum likelihood,ML)。最大似然方法考察數據組中序列的多重比對結果,最佳化出擁有一定拓撲結構和樹枝長度的進化樹,這個進化樹能夠以最大的機率導致考察的多重比對結果。距離樹考察數據組中所有序列的兩兩比對結果,通過序列兩兩之間的差異決定進化樹的拓撲結構和樹枝長度。最大節約方法考察數據組中序列的多重比對結果,最佳化出的進化樹能夠利用最少的離散步驟去解釋多重比對中的鹼基差異。
距離方陣方法簡單的計算兩個序列的差異數量。這個數量被看作進化距離,而其準確大小依賴於進化模型的選擇。然後運行一個聚類算法,從最相似(也就是說,兩者之間的距離最短)的序列開始,通過距離值方陣計算出實際的進化樹,或者通過將總的樹枝長度最小化而最佳化出進化樹。用最大節約方法搜尋進化樹的原理是要求用最小的改變來解釋所要研究的分類群之間的觀察到的差異。最大似然方法評估所選定的進化模型能夠產生實際觀察到的數據的可能性。進化模型可能只是簡單地假定所有核苷酸(或者胺基酸)之間相互轉變的機率一樣。程式會把所有可能的核苷酸輪流置於進化樹的內部節點上,並且計算每一個這樣的序列產生實際數據的可能性(如果兩個姐妹分類群都有核苷酸“A”,那么,如果假定原先的核苷酸是“C”,得到現在的“A”的可能性比起假定原先就是“A”的可能性要小得多)。所有可能的再現(不僅僅是比較可能的再現)的幾率被加總,產生一個特定位點的似然值,然後這個數據集的所有比對位點的似然值的加和就是整個進化樹的似然值。 4.進化樹搜尋
單一的進化樹的數量會隨著分類群數量的增長而呈指數增長,從而變為一個天文數字。由於計算能力的限制,現在一般只允許對很小一部分的可能的進化樹進行搜尋。具體的數目主要依賴於分類群的數量、最佳化標準、參數設定、數據結構、計算機硬體以及計算機軟體。 有兩種搜尋方法保證可以找到最最佳化的進化樹:窮舉法和樹枝跳躍法(BB)。對於一個很大的數據集,這兩種方法都很不實用。對分類群數量的限制主要取決於數據結構和計算機速度,但是對於超過20個分類群的數據集,BB方法很少會得到套用。窮舉法要根據最佳化標準,對每一個可能的進化樹進行評估。BB方法提供一個邏輯方法,以確定那些進化樹值得評估,而另一些進化樹可被簡單禁止。因此BB方法通常要比窮舉法快得多。
絕大多數分析方法都使用“啟發式”的搜尋。啟發式現搜尋出相近的次最佳化的進化樹家族(“島嶼”),然後從中得到最佳化解(“山頂”)。不同的算法用不同程度的精確性搜尋這些島嶼和山頂。最徹底也是最慢的程式(TBR,tree bisection-reconnection,進化樹對分重接)先把進化樹在每一個內部樹枝處劈開,然後以任意方式將劈開的碎片重新組合起來。最快的算法只是檢查一下相鄰終端的不太重要的重新組合,因此傾向於找到最近的島嶼的山頂。降低搜尋代價的最好方法是對數據集進行剪除。影響最佳化搜尋策略選擇的因素(數據量,數據結構,時間量,硬體,分析目的)太複雜,無法推薦一個簡單可行的處方。因此進行搜尋的用戶必須對數據非常熟悉且有明確的目標,了解各種各樣的搜尋程式及自己硬體設備和軟體的能力。
除上述當前套用最廣的方法外,還有大量的建立和搜尋進化樹的其它方法。這些方法包括Wagner距離方法和親近方法(距離轉化方法);Lake的不變式方法(一個基於特徵符的方法,它選擇的拓撲結構包含一個意義重大的正數以支持顛換);Hadamard結合方法(一個精細的代數方陣方法,對距離數據或者觀察到的特徵符進行修正);裂解方法(這個方法決定在數據中應該支持哪一個基於距離的可選的拓撲結構);四重奏迷惑(Quartet puzzling)方法可以為ML建樹方法所套用,這個算法相對而言是個較快的進化樹搜尋算法。 5.確定樹根
上述的建樹方法所產生的都是無根樹(進化樹沒有進化的極性)。為了評估進化假說,通常必須要確定進化樹的樹根。確定系統發育進化樹的樹根並不簡單問題。一種確定樹根的好方法就是分析時加入一個複製的基因。如果來自絕大多數物種或者所有物種的所有的平行基因在分析時都被包含進去,那么從邏輯上我們就可以把進化樹的樹根定位於平行基因進化樹的交匯處,當然要假定在所有進化樹中都沒有長樹枝問題。 6.評估進化樹和數據
現在已經有一些程式可以用來評估數據中的系統發育信號和進化樹的健壯性。對於前者,最流行的方法是用數據信號和隨機數據作對比實驗(偏斜和排列實驗);對於後者,可以對觀察到的數據重新取樣,進行進化樹的支持實驗(非參數自引導和對摺方法)。似然比例實驗可以對取代模型和進化樹都進行評估。
結構進化樹
隨著X-ray、NMR等實驗技術的的進步,蛋白質結構數據的數量日益增多,結構精度也越來越高,使得結構比較更為可行。目前已經發現許多蛋白的一級序列差異很大,難以通過序列比對進行分子進化的研究,但它們的空間拓撲結構仍然很相似,可以進行結構疊合比較、分析它們之間的進化關係,這表明結構比較可以比序列比較獲得更多更精確的結構信息。研究發現蛋白質結構比序列的保守性更強,進化過程中蛋白質序列可能發生變化,但它的摺疊模式更為保守,即使是70%的序列發生變化,它的摺疊模式也不會有很大的改變。蛋白質分子的結構比較與蛋白質一級序列比較法相比,具有更高的優越性。
目前有關蛋白質結構比較的研究方法很多,主要有剛體結構疊合比較、多特徵的結構比較等方法。前者用比較後確定的拓撲等價位點的個數或等價位點Cα原子距離的均方根值作為不同結構間差異性的量度(結構進化樹);後者用蛋白質結構的多項特徵如殘基的物理特性、殘基的空間傾向性、主側鏈的方向、主鏈的二面角、二級結構類型和主側鏈的可接近性等綜合指標作為結構的差異性量度,有時稱此類方法構建的結構進化樹為“類結構”進化樹。
剛體疊合所構建的進化樹適用於同源蛋白質結構預測的骨架結構的選擇,基於序列的進化樹便於描述類似性較大的蛋白質的進化關係,而結構的多特徵比較則適用於分析分歧較大的蛋白質結構。 1.剛體結構疊合比較
當已知2個以上同源蛋白質的晶體結構時,可將每兩套結構的原子坐標進行最佳疊合,確定類似結構中完整的一套殘基等價位點,並使等價位點間的距離平方和最小,這樣便得到各結構的拓撲等價區。通常將結構簡化為一系列Cα位置,等價位點被定義為在重疊結構中位於某個特定距離範圍(不大於3埃)之內的Cα原子。通過計算不同結構等價位點的個數或計算多個結構的等價位點Cα距離的均方根值作為不同結構間差異性的度量。再根據一般的建樹方法,給出幾個結構的進化關係。
剛體結構疊合方法需要蛋白質的晶體結構數據的質量要高。事實上,相對於序列而言,已測定的蛋白質晶體結構很少,許多同源蛋白質的結構並不知道。其次,儘管同源蛋白質具有相同的摺疊結構,它們的二級結構成分則經歷形變、相對平移和旋轉使側鏈達到最佳化的包裝以適應進化的壓力。對於序列相同率為30%的兩個蛋白質,由剛體疊合所確定的拓撲等殘基的均方根差大約為1.5埃,而且殘基數可能只占全部殘基數的1/3。它可能不足以進行結構比較。因此需要發展一種更靈活的確定拓撲等價位點的方法,並且要把二級結構成分的相對運動和變形也考慮進去。 2.多特徵結構比較
多特徵結構比較以及構建“類結構”進化樹的原理與基於殘基匹配記分方法(常用PAM250矩陣)進行多序列比較和構建序列進化樹的原理相同。包括以下步驟:(1)動態規劃配準和結構匹配;(2)多個結構的多特徵比較;(3)多特徵結構比較的距離量度;(4)繪製進化樹圖。
相關軟體 Phylip
PHYLIP是一個包含了大約30個程式的軟體包,這些程式基本上囊括了系統發育的所有方面。PHYLIP是免費軟體,並且可以在很多平台上運行(Mac, DOS, Unix, VAX/VMS, 及其它)。PHYLIP目前已經是最廣泛使用的系統發育程式。 PAUP
開發PAUP的目的是為系統發育分析提供一個簡單的,帶有選單界面的,與平台無關的,擁有多種功能(包括進化樹圖)的程式。PAUP 3.0隻建立於MP相關的進化樹及其分析功能;而PAUP 4.0已經可以針對核苷酸數據進行與距離方法和ML方法相關的分析功能,以及其它一些特色。