簡介
網路極大地加速了遺傳學的基礎研究。人類基因組計畫很大程度上就是依靠網路來獲得新的信息,並和全世界共享已經有的數據。另外還有很多網路資料庫為公眾和研究人員提供各種核苷酸序列和蛋白質信息。這些網站所有的數據都是用資料庫來存放的,對這些數據的查找、訪問、更新,以及現在正在積極進行的對基因信息的注釋工作都是通過資料庫來完成的,所以常直接稱這些網站為資料庫。
發展歷史
最早的生物學資料庫是在 20世紀 60、70 年代出現的,當時人們對蛋白質已經研究得比較深入,得到的關於蛋白質的數據也越來越多。這些促使Margarel Dayhoff建立了第一個蛋白質的網路資料庫。現在這個資料庫的名稱是International Protein Information Resource(PIR)。 20世紀80 年代早期,Amos Bairoch 建立SWISS-PROT sequence資料庫。發展到今天,這個資料庫已經成為當今最有名的蛋白質資料庫之一。後來,隨著各種基因組測序計畫的啟動,尤其是在人類基因組計畫啟動以後,核苷酸序列信息開始極快地增長,核苷酸序列資料庫開始出現。
遺傳學基礎研究相關資料庫
最著名的三個核苷酸序列資料庫是GeneBank、ENBL和DDBJ。前者由美國國家生物技術信息中心(NCBI)開發,後者由歐洲生物信息研究所(EBI)開發。兩者都擔負著人類基因組計畫的測序任務,NCBI更是人類基因組計畫的組織者。而由 NCBI 負責的網站(http://www.ncbi.nlm,nih,gov)和由 EBI 負責的網站(http://www.emsembl.org/genome/central)則成為了生物基因信息尤其是人類基因信息的主要來源。DDBJ是位於日本的核苷酸資料庫。這三個世界上最大的核苷酸資料庫已經實現了數據共享,並且它們都支持研究人員上傳自己研究得到的基因數據,通過三個資料庫中任何一個輸入的信息都能在另外兩個中看到。此外,這三個資料庫還和其它幾個相關的資料庫如PubMed、Locuslink、RefSeq 等實現了數據關聯 ,不同資料庫內的數據可以相互參考,為使用者提供DNA、RNA、蛋白質以及參考文獻全方位的信息。
其它一些資料庫的數據涵蓋了DNA 序列,RNA序列,蛋白序列,蛋白質二級結構,蛋白質三級結構,基因突變體,生物代謝途徑等方面。門類齊全的網路資料庫正在為生物學的研究提供不可或缺的幫助。下表中按照類別列出了全世界幾個大的分子生物學資料庫。
名稱 | URL | 內容 |
DNA | http://www.ncbi.nlm.nih.gov/genebank | 核苷酸序列 |
GeneBank | http://www.ebi.ac.uk/embl | 核苷酸序列 |
DDBJ | http://www.ddbjnig.ac.jp | 核苷酸序列 |
RZPD | http://www.rzpd.de | 核苷酸序列 |
Ensembl | http://www.ensembl.de | 經過注釋的人類基因組數據 |
TIGR Gene indeces | http://www.tigr.org/tdb/tgi.shtml | 非冗餘按物種分類的基因數據 |
Ecoli | http://www-nbrf.georgetown,edu/cgi-bin/pirwww/nbrfcg?ref=A64720 | Ecoli K-10全基因序列 |
HGMD | http://archive.uwcm.ac.uk/search/mg/allgenes | 人類基因突變資料 |
EGAD | http://www.tigr.org/tdb/egad/egad.shtml | 核酸序列 |
HIV | http://hiv-web.lanl.gov | 愛滋病病毒基因序列 |
BDGP | http://www.fruitfly.org | 果蠅基因組序列 |
RDP | http://rdp.com.msu.edu/html/ | 核糖體基因工程 |
tRNA | http://www.uni-bayreuth.de/departments/biochemie/sprinzl/trna/ | tRNA 序列 |
RNA | http://biobases.ibch.poznan.pl/ncRNA | 非編碼的RNA序列 |
5s rRNA | http://biobases.ibch.poznan.pl/5sdata/ | 5s rRNA數據 |
ACTIVITY | http://www.mgs.bionet,nsc,ru/mgs/systems/activity | DNA/RNA活性位點的功能 |
Small RNA Datbade | http://mbcr.bcm.tmc.edu/smallRNA | 原核和真核生物的小RNA序列 |
European Large Subunit rRNA Database | http://rrna.uia.ac.be/lsu/index.html | 核糖體大亞基rRNA 序列和 二級結構 |
European Small Subunit rRNA Database | http://rrna.uia.ac.be/ssu/index.html | 核糖體小亞基rRNA 序列和 二級結構 |
SRPDB | http://psyche.uthct.edu/dbs/SRPDB/SRPDB.html | SRP RNA SRP蛋白質以及和SRP相關的序列和結構信息 |
SWISS-PROT | http://www.infobiogen.fr/services/dbcat/data/PROT/DBC0012-swissprot.html | 蛋白質序列 |
PIR | http://pir.georgetown.edu | 蛋白質序列 |
PRINTS | http://www.bioinf.man.ac.uk/dbbrowser/prints | 蛋白質序列印跡 |
GCRdb | http://www.gcrdb.uthscsa.edu | G偶聯蛋白資料庫 |
TMbase | http://www.isrec.isb-isb.ch/tmbase/TAMBASE-doc.html | 穿膜肽資料庫 |
SWISS=2D PAGE | http://www.expasy.ch/ch2d | 蛋白質2-D PAGE圖庫 |
PMD | http://www.genome.ad.jp/htbin/show_man?pmd | 蛋白質突變體庫 |
3D-image | http://www.expasy.ch/sw3d/sw3d-top.html | 蛋白質三維結構 |
Histone | http://www.infobiogen.fr/sevices/dbcat/data/PROT/DBC00350-histone.html | 組蛋白序列 |
GRAP | http://www-grap.fagmed.uit.no/GRAP/queryform.html | G蛋白A家族突變體庫 |
HIV Molecular Immunology Database | http://hiv-web.lanl.gov/immunology | HIV抗原決定簇資料庫 |
Chr21 db | http://eri.uchsc.edu/chromosome21/map/index.html | 人類21號染色體圖 |
Chr11 db-rpci | http://shows.med.buffalo.edu/database.html | 人類11號染色體圖 |
IXDB | http://ixdb.mping-berlin-dahlem.mpg.de/ | 人類X染色體圖 |
另外由於為遺傳學基礎研究服務的資料庫的增加,為方便對各個資料庫的查找,網路上也開始出現一些專門提供各個資料庫的信息的網站。DBcat就是其中之一(http://www.infobiogen.fr/services/dbcat/)。到現在為止它總共提供了 788 個網路資料庫的數據。這些資料庫被分為八大類:DNA、RNA、Protein、Genomic、Mapping、Protein Structure、Literature、Miscellaneous 。
醫學遺傳學資料庫
隨著基礎研究的進展,人們對各種由於基因缺陷而造成的疾病的認識越來越深。為了研究和為公眾服務的需要,Internet 上開始出現一些遺傳相關疾病的資料庫。GeneClinics (http://www.geneclinics.org) 是一家提供各種疾病信息服務的權威性網站,到現在為止,已經蒐集有 100 多條疾病信息,其中絕大多數是和遺傳病相關的。OMIM(Online Mendelian Inheritance in Man)則是另一家提供類似服務的大型網站。這個網站和與它相應的雜誌Mendelian Inheritance in Man 一樣,都是專門為專家和研究人員服務的。它蒐集了上千種被認為是遺傳疾病的病例。另外,網站還提供了和 PubMed(http://www.ncbi.nlm.nih.gov/pubmed)的連結,用戶可以通過 PubMed 查詢生物醫學雜誌上的相關文章。實際上,所提到的絕大部分網站都提供了和 PubMed 的連結。
人類基因組流行病網路(HuGENet)( http://www.cdc.gov/genetics/hugenet)是由疾病預防和控制中心(Center for Disease Control andPrevention)建立的提供人類流行病信息的網站。包括了特定流行病人群基因突變的數據、不同人群基因突變和流行病之間關係的數據、以一定量的人群為基礎的基因與環境相互作用的數據、人口壓力對基因檢驗和醫療的影響和基因突變對疾病防治和提高健康水平方面的影響等信息。
未來的發展
以人類基因組計畫為核心的各種基因組測序計畫使遺傳學的數據呈現爆炸式的增長,要對該領域做出一個準確的預測幾乎是不可能的。我們只能通過現有的跡象和發展模式猜測未來遺傳學的發展。網路資料庫因為其對數據高效的管理和可以方便地實現數據共享仍然會在遺傳學研究中占據主要位置。在將來的幾十年中,生物信息學將會成為遺傳學研究的主要方向。隨著各種數據的快速增長,資料庫也將越來越龐大,越來越複雜,如何保持和加快資料庫檢索的速度,如何能夠實現自動的數據傳送將成為後期資料庫發展的主要問題。