介紹
DNA序列資料庫是集合所有已知核酸的核苷酸序列,單核苷酸多態性、結構、性質以及相關描述,包括它們的科學命名、來源物種分類名稱、參考文獻等信息的資料庫。基因和基因組的資料也包含在DNA序列資料庫中。
1、核酸序列資料庫
國際三大核酸序列資料庫:GenBank, EBML, DDBJ
RefSeq: The Reference Sequence Database
dbEST: Expressed Sequences Tags資料庫
UniGene等
2、蛋白質序列資料庫
UniProt (Swiss-prot & TrEMBL, PIR)
3、基因組資料庫: Ensembl
常用資料庫
NCBI主要基因序列資料庫
GenBank:包含了所有已知的核酸序列和蛋白質序列,以及與它們相關的文獻著作和生物學注釋。其數據直接來源於測序工作者提交的序列,為原始數據積累的開放資料庫,數據可能存在重複以及不準確。
UniGene:對核酸序列資料庫的數據進行適當處理,剔除冗餘部分後,同一基因包括表達序列標籤的序列簇,多用於研究基因的轉錄圖譜。
RefSeq:提供非冗餘的,高質量的,經檢驗校正的序列信息;包括染色體、基因組(細胞器、病毒、質粒)、蛋白質、RNA等。
Entres-Gene資料庫
序列來源於Refseq資料庫;
詳盡的注釋信息,包括基因在基因組的定位,基因名稱、蛋白質名稱,基因結構等;
基因的命名主要來自權威命名委員會的官方符號以及Refseq記錄中的基因名,由NCBI工作人員進行數據收集並注釋。NLM的索引部門對基因功能進行闡述。
沿用人類孟德爾遺傳網(OMIM)中的疾病名稱並與NCBI其他資料庫形成互動連結。
PROSITE
收集了生物學有顯著意義的蛋白質位點和序列模式;
根據這些位點和模式快速和可靠地鑑別一個未知功能的蛋白質序列應該屬於哪一個蛋白質家族;
序列模式包括酶的催化位點、配體結合位點、與金屬離子結合的殘基、二硫鍵的半胱氨酸、與小分子或其它蛋白質結合的區域等。