歷史追溯
由於蛋白質序列測定技術先於DNA序列測定技術問世,蛋白質序列的蒐集也早於DNA序列。蛋白質序列資料庫的雛形可以追溯到60年代。60年代中期到80年代初,美國國家生物醫學研究基金會(National Biomedical Research Foundation,簡稱NBRF)Dayhoff領導的研究組將蒐集到的蛋白質序列和結構信息以“蛋白質序列和結構地圖集”(Atlas of Protein Sequence and Structure)的形式發表,主要用來研究蛋白質的進化關係。1984年,“蛋白質信息資源”(Protein Information Resource,簡稱PIR)計畫正式啟動,蛋白質序列資料庫PIR也因此而誕生。與核酸序列資料庫的國際合作相呼應,1988年,美國的NBRF、日本的國際蛋白質信息資料庫(Japanese International Protein Information Database,簡稱JIPID)和德國的慕尼黑蛋白質序列信息中心(Munich Information Center for Protein Sequences,簡稱MIPS)合作成立了國際蛋白質信息中心(PIR-International),共同收集和維護蛋白質序列資料庫PIR,[Barker等, 2000]。
列資料庫
序列資料庫是生物信息資料庫中最基本的資料庫,包括核酸和蛋白質兩類,以核苷酸鹼基順序或胺基酸殘基順序為基本內容,並附有注釋信息。注釋信息包括兩部分,一部分由電腦程式經過序列分析由電腦程式生成,另一部分則依靠生物學家通過查閱文獻資料而獲得。序列資料庫從一個側面反映了信息資源的傳播從印刷品到電子媒體再到網路的發展趨勢 。
資源PIR
PIR(Protein Information Resource)由佐治棠大學建立,網址:http://pir.georgetown.edu,是一個蛋白質信息學的公共信息源及支持服務於一體的資源網站。它致力於基因組學和蛋白質組學的研究及科學探索。該蛋白質序列資料庫的雛形可以追朔到60年代。1966年美國國家生物醫學研究基金會(National Biomedical Research Foundation,簡稱NBRF)Dayhoff領導的研究組將蒐集到的蛋白質序列和結構信息以《蛋白質序列和結構地圖集》(Atlas of Protein Sequence and Structure)一書的形式發表,主要用來研究蛋白質的進化關係,該書到1979年已出版了5版和3個增補本後不再有新版。1984年,“蛋白質信息資源”(Protein Information Resource,簡稱PIR)計畫正式啟動,蛋白質序列資料庫PIR也因此而誕生。1988年,美國華盛頓的喬治城大學全國生物醫學研究基金會(NBRF)、日本東京理科大學的日本國際蛋白質信息資料庫(Japanese International Protein Information Database,簡稱JIPID)和德國的慕尼黑蛋白質序列信息中心(Munich Information Center for Protein Sequences,簡稱MIPS)三家實驗室共同合作成立了國際蛋白質信息中心(PIR-International),共同收集和維護蛋白質序列資料庫PIR,PIR資料庫按照數據的性質和注釋層次分四個不同部分,分別為PIR1、PIR2、PIR3和PIR4。PIR1中的序列已經驗證,注釋最為詳盡;PIR2中包含尚未確定的冗餘序列;PIR3中的序列尚未加以檢驗,也未加注釋;而PIR4中則包括了其它各種渠道獲得的序列,既未驗證,也無注釋。
序列資料庫
除了PIR外,另一個重要的蛋白質序列資料庫則是SWISS-PROT(Protein Sequence Database)(http://www.expasy.ch/sprot/sprot-top.html)。該資料庫由瑞士日內瓦大學生化系A.Bairoch於1986年創建,目前由瑞士生物信息學研究所(Swiss Institute of Bioinformatics,簡稱SIB)和歐洲生物信息學研究所EBI共同維護和管理。瑞士生物信息研究所下屬的蛋白質分析專家系統(Expert Protein Analysis System,簡稱ExPASy)(http://www.expasy.ch/)的Web伺服器除了開發和維護SWISS-PROT資料庫外,也是國際上蛋白質組和蛋白質分子模型研究的中心,為用戶提供大量蛋白質信息資源。北京大學生物信息中心設有ExPASy的鏡像。現在EBI/EMBL也參與SWISS-PROT的開發,並隨EMBL資料庫一起發行。SWISS-PROT蛋白質序列庫是現在最為常用、注釋最全、包含獨立項最多的資料庫,它包括其他蛋白質序列庫中經過驗證的全部序列,其注釋及蛋白質的功能、結構域和活性位點、二級結構、四級結構、翻譯後修飾、與其他蛋白質的相似性、相關的疾病、處理的衝突等,資料庫中的所有序列條目都經過有經驗的分子生物學家和蛋白質化學家通過計算機工具並查閱有關文獻資料仔細核實。SWISS-PROT資料庫的每個條目都有詳細的注釋,包括結構域、功能位點、跨膜區域、二硫鍵位置、翻譯後修飾、突變體等。該資料庫中還包括了與核酸序列資料庫EMBL/GenBank/DDBJ、蛋白質結構資料庫PDB以及PROSITE、PRINTTS等10多個二次資料庫的交叉引用代碼。
NRL3D
另一個常用的蛋白質序列資料庫是已知三維結構蛋白質的一級結構序列資料庫NRL3D(http://www-nbrf.georgetown.edu/pirwww/dbinfo/nrl3-d.html)。該資料庫的序列是從三維結構資料庫PDB中提取出來。除了序列信息外,NRL-3D包括二級結構、活性位點、結合位點、修飾位點等與蛋白質結構直接有關的注釋信息,對研究蛋白質結構功能關係和同源蛋白分子模型構建特別有用 。
TrEMBL
TrEMBL是瑞士生物信息學研究所的蛋白質序列資料庫Swiss-Prot的一個增補本。TrEMBL增加了一些Swiss-Prot資料庫中沒有的歐洲分子生物學實驗室核甘酸序列。TrEMBL資料庫分兩部分,SPTrEMBL和REM-TrEMBL。SP-TrEMBL中的條目最終將歸併到SWISS-PROT資料庫中。而REM-TrEMBL則包括其它剩餘序列,包括免疫球蛋白、T細胞受體、少於8個胺基酸殘基的小肽、合成序列、專利序列等。與TrEMBL類似,GenPept是由GenBank翻譯得到的蛋白質序列。由於TrEMBL和GenPept均是由核酸序列通過電腦程式翻譯生成,這兩個資料庫中的序列錯誤率較大,均有較大的冗餘度。網頁提供了分析蛋白質序列和結構的工具和軟體包,還提供了與其他分子生物學的資源和主要伺服器的連結。
上述幾個蛋白質序列資料庫可以稱為蛋白質序列一次資料庫,或基本資料庫。它們各有特點。NRL3D包含已知空間結構的序列,但數據量十分有限;SWISS-PROT的序列經過嚴格的審核,注釋完善,但數據量較小。PIR數據量較大,但包含未經驗證的序列,注釋也不完善。TrEMBL和GenPept的數據量最大,且隨核酸序列資料庫的更新而更新,但它們均是由核酸序列翻譯得到的序列,未經實驗證實,也沒有詳細的注釋。將上述資料庫整合起來,構建複合資料庫,或二次資料庫,則有利於生物學家的使用。OWL混合蛋白質序列資料庫(Composite protein sequences databases)http://www.bioc-hem.ucl.ac.uk/bsm/dbbrowser/OWL/owlconten-ts.html和NRDB就是根據這一原則構建的非冗餘蛋白質序列資料庫。這兩個資料庫均是由GenPept、PIR、SWISS-PROT、NRL3D等資料庫複合而成。為使二次序列資料庫中的序列具有較好的代表性,在構建複合資料庫時,採取了某些序列取捨的標準,使用了一定的算法,並增加了與其它資料庫的交叉引用,在某些方面具有一定的優點 。