簡介
unigene是 Universal Gene的英文縮寫,意為廣泛通用的基因資料庫,通過電腦對相同基因座( Locus)的收集整理集合形成一個非冗餘的基因資料庫。
說明
一種生物信息學資料庫(基因資料庫)
人類基因組計畫的首要任務是對人類基因組進行全序列測定,整個基因組估計有30億個鹼基對,其中大約3%可以編碼蛋白質,其餘部分的生物學功能還不清楚。轉錄圖譜可以把基因組中能夠編碼蛋白質的部分集中起來,因此是一種重要的數據資源。UniGene試圖通過電腦程式對GeneBank中的序列數據進行適當處理,剔除冗餘部分,將同一基因的序列,包括EST序列片段蒐集到一起,以便研究基因的轉錄圖譜。UniGene除了包括人的基因外,也包括小鼠、大鼠等其它模式生物的基因,而HGI資料庫只包括人的基因。該資料庫的標題行(TITLE)給出基因的名稱和簡單說明,表達部位行(EXPRESS)指出該基因在什麼組織中表達以及在基因圖譜中的位置等。此外,列出該基因在核酸序列資料庫GenBank或EMBL和蛋白質序列資料庫SWISS-PROT中的編號的超文本連結。UniGene中部分條目包括已知基因序列,而有些條目則僅有新測得的EST序列片段。這就意味著,這些EST序列所對應的基因尚未搞清,可以用來發現新基因。在描繪基因圖譜及大規模基因表達分析等研究中,UniGene也可以幫助實驗設計者選擇試劑。UniGene可以通過NCBI或SRS系統訪問。
The UniGene System UniGene是從屬於GeneBank的一部分,專門收集非冗餘性的基因來源的clusters數據。每一個UniGene Cluster包含代表單一基因的 序列和相關的信息,例如基因表達的組織類型和圖譜定位信息。
除了這些具有特徵的序列以外,成千上萬的EST也被收錄在內。因此,相應的,這些收集的資源可以作為基因發現的來源。現在,許多實驗室研究人員已經利用UniGene進行大規模的基因表達圖譜分析,並且所有這些序列並沒有被用來嘗試產生Contigs或Consensus。這裡存在一些原因解釋為什麼同屬於某一基因的序列不用來產生一個單一的Contig. 所有屬於同一基因的剪下變異被放在同一聚類中。 來從同一cDNA克隆的EST序列,通常都有5’和3’端的序列,但這些序列並不都具有重疊部分。
當前,Unigene已收錄了Human 、Rat、Mouse和Cow、Zebrafish的序列。選擇這些物種是因為它們有大量的EST可用數據,其它物種的序列將在今後陸續被加入。
UniGene的數據可通過FTP下載 UniGene Build Procedure:
聚類是一個發現同屬於一個大類中的小的亞序列的過程,可通過轉換離散相似值為序列之間的布爾數學體系聯繫。也就是說,如果序列間的相似性超過某一閾值,則認為它們具有相關性。UniGene clustering 對於這種相關性分析提供更多的生物學意義上的考慮,聚類過程大致如下:
1.對序列中的載體、寡核苷酸、重複片段以及線粒體、核糖體等污染序列進行過濾。去除污染序列之後的序列至少要含有100bp的帶有信息的序列才可作為候選序列。
2.Gene links
從屬於同一基因的序列(包括 mRNA or genome sequences, 完整的 CDS)彼此之間要進行比較,足夠相似的序列被放在一起,形成初始的clusters。
3.EST to Gene links and EST to EST
通過megablast,EST與屬於同一基因的序列進行比較,足夠相似的序列 被加入到這些clusters。如果某一個序列,表現為可同時放在2個不同clusters,但不能把2個clusters聯成一個cluster,這樣的序列必須被剔除。另外,如果在clusters有2個以上的帶有 3’末端標記EST或在Cluster中沒有帶有poly(A)信號的序列,這樣的Clusters必須被拋棄。
經過這些標準篩選得到的clusters,稱為錨定clusters 。因為這些clusters具有3’ 末端序列,並被假定為已知的。
4 根據克隆信息設定Cluster的邊界。
這樣可以確保如果同屬於一個Cluster的5’末端和3’末端ESTs即使中間沒有重疊的片段將它們聯繫起來,也能認定它們屬於同一個cluster。如果在一個Cluster中有兩個3’末端ESTs,那么就可在相同的克隆中找到兩個5’末端EST,並將其放到同一個Cluster中。並且可以提供Clusters之間合併的信息。
由於新的序列數據的加入和每星期的不斷更新,因此在UniGene中的resulting Cluster每星期也隨之重新整理,不斷更新。Clusters之間會發生融合,因此使用Cluster的ID作為標識,是不明智之舉,最好利用GB accession numbers比較安全。
目前,在UniGene中包括有48,000 Clusters,Clusters 大部分依據EST序列形成,每一個Cluster代表一個human gene 的轉錄子,當前估計人類 基因組約有80,000到100,000基因。利用UniGene Clusters的一個重要的目的是識別新的,非冗餘的候選b表達圖譜,為產生一個轉錄子圖譜-識別基因組所有的編碼序列。