分子生物信息資料庫
基因組資料庫來自基因組作圖,序列資料庫來自序列測定,結構資料庫來自X-衍射和核磁共振結構測定。這些資料庫是分子生物信息學的基本數據資源,通常稱為基本資料庫,初始資料庫,也稱一次資料庫。根據生命科學不同研究領域的實際需要,對基因組圖譜、核酸和蛋白質序列、蛋白質結構以及文獻等數據進行分析、整理、歸納、注釋,構建具有特殊生物學意義和專門用途的二次資料庫,是資料庫開發的有效途徑。近年來,世界各國的生物學家和計算機科學家合作,已經開發了幾百個二次資料庫和複合資料庫,也稱專門資料庫、專業資料庫、專用資料庫。 一般說來,一次資料庫的資料庫量大,更新速度快,用戶面廣,通常需要高性能的計算機硬體、大容量的磁碟空間和專門的資料庫管理系統支撐。例如,歐洲生物信息學研究所用Oracle資料庫軟體管理、維護核酸資料庫EMBL。而基因組資料庫GDB的管理、運行則基於Sybase資料庫系統,即使是安裝其鏡象。也需要有Sybase支撐。Oracle和Sybase均為流行的資料庫管理商業軟體。而二次資料庫的容量則要小得多,更新速度也不象一次資料庫那樣快,也可以不用大型商業資料庫軟體支撐。許多二次資料庫的開發基於Web瀏覽器,使用超文本語言HTML和Java程式編寫的圖形界面,有的還帶有搜尋程式。這類針對不同問題開發的二次資料庫的最大特點是使用方便,特別適用於計算機使用經驗並不豐富的生物學家。 二次資料庫種類繁多,以核酸資料庫為基礎構建的二次資料庫有基因調控轉錄因子資料庫TransFac,真核生物啟動子資料庫EPD,克隆載體資料庫Vector,密碼子使用表資料庫CUTG等。以蛋白質序列資料庫為基礎構建的二次資料庫有蛋白質功能位點資料庫Prosite,蛋白質功能位點序列片段資料庫Prints,同源蛋白家族資料庫Pfam,同源蛋白結構域資料庫Blocks。以具有特殊功能的蛋白為基礎構建的二次資料庫有免疫球蛋白資料庫kabat,蛋白激酶資料庫PKinase等。以三維結構原子坐標為基礎構建的資料庫為結構分子生物學研究提供了有效的工具,如蛋白質二級結構構象參數資料庫DSSP,已知空間結構的蛋白質家族資料庫FSSP,已知空間結構的蛋白質及其同源蛋白資料庫HSSP等。蛋白質迴環分類資料庫則是用於蛋白質結構、功能和分子設計研究的專門資料庫。此外,酶、限制性內切酶、輻射雜交、胺基酸特性表、序列分析文獻等,也屬於二次資料庫或專門資料庫。 法國生物信息研究中心Infobiogen生物信息資料庫目錄DBCat蒐集了主要400多個資料庫的名稱、內容、數據格式、聯繫地址、網址等詳細信息,使用戶對目前生物信息資料庫有一個詳盡的了解。DBCat本身也是一個具有一定數據格式的資料庫。DBCat按DNA、RNA、蛋白質、基因圖譜、結構、文獻等分類,其中大部分資料庫是可以免費下載的公用資料庫。 此外,國際上許多生物信息中心建有生物信息學和基因組信息資源網路導航系統其中美國Oak Ride國家實驗室人類基因組信息資源導航系統和英國基因組圖譜資源中心(Human Genome Mapping Resource Centere,簡稱HGMP)的GenomeWeb所列網址最為詳盡,蒐集了世界各地基因組中心、基因組資料庫、基因組圖譜、基因組實驗材料、基因突變、遺傳疾病、以及生物技術公司、實驗規程、網路教程、用戶手冊等幾百個網址。