生物信息
生物信息學的一個基本觀點是:分子的結構決定分子的性質和分子的功能。因此,生物大分子蛋白質的空間結構決定蛋白質的生物學功能。但是,蛋白質的空間結構又是由什麼決定的呢?當一個蛋白質的空間結構被破壞以後,或者蛋白質解摺疊後,可以恢復其自然的摺疊結構。大量的實驗結果證明:蛋白質的結構由蛋白質序列所決定。雖然影響蛋白質空間結構的另一個因素是蛋白質分子所處的溶液環境,但是,決定蛋白質結構的信息則是被編碼於胺基酸序列之中。然而,這種編碼是否能被破譯呢?或者說是否能夠直接從胺基酸序列預測出蛋白質的空間結構呢?
數學模式
從數學上講,蛋白質結構預測的問題是尋找一種從蛋白質的胺基酸線性序列到蛋白質所有原子三維坐標的映射。典型的蛋白質含有幾百個胺基酸、上千個原子,而大蛋白質(如載脂蛋白)的胺基酸個數超過4500。所有可能的序列到結構的映射數隨蛋白質胺基酸殘基個數呈指數增長,是天文數字。然而幸運的是,自然界實際存在的蛋白質是有限的,並且存在著大量的同源序列,可能的結構類型也不多,序列到結構的關係有一定的規律可循。因此,蛋白質結構預測是可能的。
蛋白質結構預測主要有兩大類方法。一類是理論分析方法或從頭算方法(Ab initio),通過理論計算(如分子力學、分子動力學計算)進行結構預測。該類方法假設摺疊後的蛋白質取能量最低的構象。從原則上來說,我們可以根據物理、化學原理,通過計算來進行結構預測。但是在實際中,這種方法往往不合適。主要有幾個原因,一是自然的蛋白質結構和未摺疊的蛋白質結構,兩者之間的能量差非常小(1kcal/mol 數量級),二是蛋白質可能的構象空間龐大,針對蛋白質摺疊的計算量非常大。另外,計算模型中力場參數的不準確性也是一個問題。
另一類蛋白質結構預測的方法是統計方法,該類方法對已知結構的蛋白質進行統計分析,建立序列到結構的映射模型,進而根據映射模型對未知結構的蛋白質直接從胺基酸序列預測結構。映射模型可以是定性的,也可以是定量的。這是進行蛋白質結構預測較為成功的一類方法。這一類方法包括經驗性方法、結構規律提取方法、同源模型化方法等。
經驗方法
所謂經驗性方法就是根據一定序列形成一定結構的傾向進行結構預測,例如,根據不同胺基酸形成特定二級結構的傾向進行結構預測。通過對已知結構的蛋白質(如蛋白質結構資料庫PDB、蛋白質二級結構資料庫DSSP中的蛋白質)進行統計分析,可以發現各種胺基酸形成不同二級結構的傾向,從而形成一系列關於二級結構預測的規則。
與經驗性方法相似的另一種辦法是結構規律提取方法,這是更一般的方法。該方法從蛋白質結構資料庫中提取關於蛋白質結構形成的一般性規則,指導建立未知結構的蛋白質的模型。有許多提取結構規律的方法,如通過視覺觀察的方法,基於統計分析和序列多重比對的方法,利用人工神經網路提取規律的方法。
同源模型化方法通過同源序列分析或者模式匹配預測蛋白質的空間結構或者結構單元(如鋅指結構、螺鏇-轉角-螺鏇結構、DNA結合區域等)。其原理基於下述事實:每一個自然蛋白質具有一個特定的結構,但許多不同的序列會採用同一個基本的摺疊,也就是說,具有相似序列的蛋白質傾向於摺疊成相似的空間結構。一對自然進化的蛋白質,如果它們的序列具有25~30%的等同部分或者更多,則可以假設這兩個蛋白質摺疊成相似的空間結構。這樣,如果一個未知結構的蛋白質與一個已知結構的蛋白質具有足夠的序列相似性,那么可以根據相似性原理給未知結構的蛋白質構造一個近似的三維模型。如果目標蛋白質序列的某一部分與已知結構的蛋白質的某一結構域區域相似,則可以認為目標蛋白質具有相同的結構域或者功能區域。在蛋白質結構預測方面,預測結果最可靠的方法是同源模型化方法。
蛋白質的同源性比較往往是藉助於序列比對而進行的,通過序列比對可以發現蛋白質之間進化的關係。在蛋白質結構分析方面,通過序列比對可以發現序列保守模式或突變模式,這些序列模式中包含著非常有用的三維結構信息。利用同源模型化方法可以預測10~30%蛋白質的結構。然而,許多具有相似結構的蛋白質是遠程同源的,它們的等同序列不到25%。也就是說,具有相似空間結構的蛋白質序列等同程度可能小於25%。這些蛋白質的同源性不能被傳統的序列比對方法所識別。如果通過一個未知序列搜尋一個蛋白質序列資料庫,並且搜尋條件為序列等同程度小於25%的話,那么將會得到大量不相關的蛋白質。因此,搜尋遠程同源蛋白質就像在乾草堆里尋找一根針。尋找遠程同源蛋白質是一項困難的任務,處理這項任務的技術稱為“線索(THREADING)技術”。對於一個未知結構的蛋白質,僅當我們找不到等同序列大於25%的已知結構的同源蛋白質時,才通過線索技術尋找已知結構的遠程同源蛋白質,進而預測其結構。找到一個遠程同源蛋白質後,就可以利用遠程同源建模方法來建立蛋白質的結構模型。
如果既沒有找到一般的同源蛋白質,又沒有找到遠程同源蛋白質,那么如何進行結構預測呢?一種可行的辦法就是充分利用現有資料庫中的信息,包括二級結構和空間結構的信息,首先從蛋白質序列預測其二級結構,然後再從二級結構出發,預測蛋白質的空間結構;或者採用從頭算方法進行結構預測。