美國國家生物信息技術中心(NCBI)提供了具有生物意義上的非冗餘的基因和蛋白質序列的RefSeq參考序列資料庫。然而,由於基因普遍存在的多態性以及不同實驗室對於序列測定的質量控制存在差異等原因,已發現RefSeq資料庫可能存在部分質量問題。文章基於“中心法則”提出“標準轉錄數據集”的概念,以人類基因和基因組序列為例,利用BLAT、Sim4和自行設計的Elparser等基因結構解析程式分析了RefSeq人類基因轉錄數據(2005-4-18)與所公布的人類標準基因組(2005-4-20)的對應關係。對於有實驗證據支持的標記為NM_和NR_的記錄,多種程式分析結果表明,其與標準基因組完全相對應的記錄為9771個;符合多個程式修訂標準的記錄有10943個;而與標準基因組有較大差異的記錄為203個,多種程式分析結果不一致的記錄為2676個,提示研究人員在使用此非標準轉錄組數據時,必須考慮到其存在非標準轉錄的原因甚至存在錯誤的可能性。此文為基於標準、高質量轉錄數據集的生物信息學數據分析、分子生物學實驗設計、基因多樣性和遺傳變異分析等提供了重要的參考標準。
其與INSDC(International Nucleotide Sequence Database Collaboration)的不同在於:INSDC是來源於用戶提交的序列。而Refseq是由NCBI科研人員與一些機構合作,從INSDC中挑選出質量高的序列構成。