三大組成
UniProtKB引 全稱 UniProt Knowledgebase(UniProt知識庫)它是經過專家校驗的數據集,主要由兩部分組成:UniProtKB/Swiss-Prot (包含檢查過的、手工注釋的條目) 和 UniProtKB/TrEMBL (包含未校驗的、自動注釋的條目),在 2010年8月是10日發布的版本中, UniProtKB/Swiss-Prot 包含 519,348 條注釋條目, UniProtKB/TrEMBL 包含11,636,205 條注釋條目。
主要特點
UniProtKB/Swiss-Prot
高質量的、手工注釋的、非冗餘的數據集;主要來自文獻中的研究成果和E-value校驗過計算分析結果。有質量保證的數據才被加入該資料庫!
UniProtKB/TrEMBL
該數據集包含高質量的計算分析結果,一般都在自動注釋中富集,主要應對基因組項目獲得的大量數據流以人工校驗在時間上和人力上的不足。他能注釋所有可用的蛋白序列。在三大核酸資料庫(EMBL-Bank/GenBank/DDBJ)中注釋的編碼序列都被自動翻譯並加入該資料庫中。它也有來自PDB資料庫的序列,以及Ensembl、Refeq和CCDS基因預測的序列。
UniParc
UniParc全稱是UniProt Archive,他是一個綜合性的非冗餘資料庫,他包含了所有主要的、公開的資料庫的蛋白質序列。 由於蛋白質可能在不同的資料庫中存在,並且可能在同一個資料庫中有多個版本,為了去冗餘,UniaraParc對每條唯一的序列只存一次!無論是否為同一物種的序列,只要序列相同就被合併為一條,每條序列提供穩定的、唯一的編號UPI。該資料庫值含有蛋白質的序列信息,而沒有注釋數據。