介紹
ESTs的產生:從特定的狀態的組織或細胞中分離mRNA,將mRNA逆轉錄成cDNA亞克隆到載體中,利用載體上的引物對插入片段測序測序出來的片段結果即稱為ESTs(expressed sequence tags)。
EST 的產生過程注定其具有以下特性:
1、由於是單次測序結果,序列的精確度較低,存在較多錯誤。(大約2% error,HGP 錯誤率標準是<0.01%);
2、重複結果多,不同EST‘s t往往來自同一個基因
3、大部分EST序列來IMAGE consortium的序列在Washington university的基因組測序中心測序,占GENEBANK中EST庫的大半,較為可靠。大部分dbEST都有IMAGE ID,描述其組織或細胞來源,測序情況。由於這些特性,導致目前EST面臨的最大問題是序列質量不高,存在:
1缺失、替代、插入等變異(與mRNA相比)
2、測序中的錯誤引發大約1.5%的利用oligoT產生的EST無法與已知的mRNA的3端比對上;
3、倒置(5端和3端弄反,插入克隆載體時出錯);
4 嵌合EST(5端和3端來自不同mRNA)因此,在對EST做Blast時最好用BlastX和Tblastx了解了上述特點及問題後,有利於我們更好地套用ESTs
表達序列標籤(expressed sequence tags,ESTs)是指從不同組織來源的cDNA序列。這一概念首次由Adams等於1991年提出。近年來由此形成的技術路線被廣泛套用於基因識別、繪製基因表達圖譜、尋找新基因等研究領域,並且取得了顯著成效。在通過mRNA差異顯示、代表性差異分析等方法獲得未知基因的cDNA部分序列後,研究者都迫切希望克隆到其全長cDNA序列,以便對該基因的功能進行研究。克隆全長cDNA序列的傳統途徑是採用噬斑原位雜交的方法篩選cDNA文庫,或採用PCR的方法,這些方法由於工作量大、耗時、耗材等缺點已滿足不了人類基因組時代迅猛發展的要求。而隨著人類基因組計畫的開展,在基因結構、定位、表達和功能研究等方面都積累了大量的數據,如何充分利用這些已有的數據資源,加速人類基因克隆研究,同時避免重複工作,節省開支,已成為一個急迫而富有挑戰性的課題擺在我們面前,採用生物信息學方法延伸表達序列標籤(ESTs)序列,獲得基因部分乃至全長cDNAycg,將為基因克隆和表達分析提供空前的動力,並為生物信息學功能的充分發揮提供廣闊的空間。文本將就EST技術的套用並就其在基因全長cDNA克隆上的套用作一較為詳細的介紹。
1、ESTs與基因識別
EST技術最常見的用途是基因識別,傳統的全基因組測序並不是發現基因最有效率的方法,這一方法顯得即昂貴又費時。因為基因組中只有2%的序列編碼蛋白質,因此一部分科學家支持首先對基因的轉錄產物進行大規模測序,即從真正編碼蛋白質的mRNA出發,構建各種cDNA文庫,並對庫中的克隆進行大規模測序。Adams等提出的表達序列標籤的概念標誌著大規模cDNA測序時代的到來。雖然ESTs序列數據對不精確,精確度最高為97%,但實踐證明EST技術可大大加速新基因的發現與研究。Medzhitov等通過果蠅黑胃TOLL蛋白進行dbEST資料庫檢索,該蛋白已證實在成熟果蠅抗真菌反應中發揮重要作用,通過同源分析的方法,找到相應的人類同源EST(登錄號為H48602),這為接下來研究人類TOLL同源蛋白的功能提供了很好的條件。hMSH5基因是從釀酒酵母菌MSH5存在30%的一致性,它與hMSH4特異性相互作用,在減數分裂和精子發生過程中發揮一定的作用。由此可見,套用EST技術,可以跳過生物分類學的界限,從生物模型的已識別基因迅速克隆出人和小鼠基因組相應的更複雜的未知基因。生物間在核苷酸水平上的進化差異阻礙了傳統意義上的雜交或以PCR為基礎的基因克隆策略,即使是親緣關係很接近的生物也不例外,如C.elegans和C.briggsae,它們僅在2~5千萬年前分化形成。而通過計算機進行dbEST進行資料庫篩選,其配製是電子雜交實驗,提供了一條更為廣泛的基因識別路線,這一路線允許基因組間存在差異,這使得基因識別與新基因克隆策略發生革命性變化,同時它也提供了一個足夠大小和複雜的基因資料庫,目前,ESTs數量正以平均每月10萬條的速度遞增。
2、ESTs和物理圖譜構建
ESTs在多種以基因為基礎的人和植物基因組物理圖譜構建中扮演著重要角色。在這一套用中,從ESTs發展起來的PCR或雜交分析可用來識別YACs、BACs或其他含有大片段插入克隆類型的載體,它們是構建基因組物理圖譜的基礎,將EST與基因組物理圖譜相比較即可辨認出含有剩餘基因序列的基因組區間,包括調控基因表達的DNA控制元件,對這些元件進行分析就有可能獲得對基因功能的詳細了解。物理圖譜與遺傳圖譜間的相互參考,形成一個用途更廣泛的綜合資源,獲得這張綜合圖譜後,研究人員就可以孟德爾遺傳特徵為基礎,將相關基因定位在基因組區間上,並且通過查詢以ESTs為基礎的藶圖譜,即可獲得這一區間上所有基因的名單。該綜合資源用途的大小取決於EST資料庫中擁有的基因數目。目前人和小鼠EST的不斷擴充使其套用更加廣泛和便捷。
3、ESTs和基因組序列注釋
EST資料庫並非完美無瑕,因為ESTs不能被剪下為單列序列位點識讀,故精確度只能達到97%,另外,ESTS受制於表達傾向(expression bias),因為產生ESTs的cDNA是組織中豐富的mRNA以一定比例反轉錄而成,因此,表達水平很低的EST資料庫中找到,而表達量高的基因在EST資料庫中卻過量存在。雖然可在起始mRNA或由它合成雙鏈cDNA時進行富集,減小cDNA文庫,但cDNA文庫中仍存在大量高豐度的cDNA克隆。因此,一個理想的cDNA文庫必須去除或儘量消除多科信息克隆的影響,這就涉及到cDNA文庫的前加工技術;均等化(normalization),減少與豐富編碼基因相關的cDNA數目;消減雜交(subtractive hybridization),套用序列標記cDNA識別並去除文庫中多餘的克降,這些技術的發展,使基因識別更依賴於EST技術,甚至可通過該技術獲得精確的基因組DNA序列,在華盛頓大學基因組測序中心和Sanger中心的聯合攻關下,C.elegans基因組10億個鹼基對的測序工作基本完成。因此ESTs是一系列基因尋找工具中不可缺少後部分,而這些工具都是基因組序列為基礎的。EST技術關於基因組DNA序列的其他套用還包括對基因內含子、外是子排列的精確預測,選擇性接合事件的識別,反常基因組排列結構的識別等。
醫生赤腳 2006-7-9 03:58 PM
4、ESTs與“電子”基因克隆
利用計算機來協助克隆基因,稱為“電子”基因克隆(sillcon cloning),是與定位克隆、定位候選克隆策略並列的方法之一,即採用生物信息學的方法延伸EST序列,以獲得基因部分乃至全長的cDNA序列。EST資料庫的迅速擴張,已經並將繼續導致識別與克隆新基因策略發生革命性變化。
4.1EST序列的獲取
利用計算機來協助克隆的第一步是必須獲得感興趣的EST,在dbEST資料庫中找出EST的最有途徑是尋找同源序列,標準:長度≥100bp,同源性50%以上、85%以下。可通過數個全球資訊網界而使用BLAST檢索程度實現,其中最常用的如NCBI(National Center for Biotechnology Information)的eneBank、義大利Tigem的ESTmachine(包括EST提取者和EST組裝機器)、THC(Tentative Human Consensus Sequences)資料庫、ESTBlast檢索程式——通過英國人類基因組作圖項目資源中心(Human Genome Mapping Project Resource Center,HGMP—RC)伺服器上訪問。然後將檢出序列組裝為重疊群(contig),以此重疊群為被檢序列,重複進行BLAST檢索與序列組裝,延伸重疊樣系列,重複以上過程,直到沒有更多的重疊EST檢出或者說重疊群序列不能繼續延伸,有時可獲得全長的基因編碼序列。獲得這些EST序列數據後,再與GeneBank核酸資料庫進行相似性檢測,假如鳳有精確匹配基因,將EST序列數據據EST六種閱讀框翻譯成蛋白質,接著與蛋白質序列資料庫進行比較分析。基因分析的結果大致有三種:第一是已知基因,是研究對象為人類已鑑定和了解的基因;第二是以前未經鑑定的新基因;第三是未知基因,這部分基因之間無同種或異種基因的匹配。新基因和未知基因將進一步用於生物學研究。
4.2基因的電子定位
基因的電子定位採用NCBI的電子PCR程式進行檢索,尋找EST序列上是否存在序列標籤位點(sequence tagged sites,STS),STS作為基因組中的單拷貝序列,是新一代的遺傳標記系統,其數目多,覆蓋密度較大,達到平均每1kb一個STS或更密集。將尋找到的STS與相應的染色體相比較,即可將此序列定位在該染色體上。
4.3IMAGE克隆的索取
許多ESTs所對應的cDNA克隆可通過基因組及其表達的整合分子分析(intergrated molecular analysis of genomes and their expression,IMAGE)協定免疫索取,這與電子基因克隆相輔相成,IMAGE協定由美國LLNL國家實驗室主持,宗旨是共享排列好的cDNA文庫中的克隆重,大規模的EST測序項目如Merk&Cow公司投資的人類ESTs項目等都加入了IMAGE協定。當研究者通過另外的途徑得到基因的部分序列,並通過同源性檢索後發現該片段與加入IMAGE協定的EST序列高度同源時,便可免費索取其原始克隆,可通過美國的ATCC組織(American Type Culture Collection)索取,從而避免或減輕篩選全長基因的麻煩,以集中精力進行基因的功能研究。
結論
人類基因組計畫已進入後基因組時代,基因組學的研究從結構基因組學過渡到功能基因組學,利用結構基因組學的同存數據,充分發揮EST技術的優勢,將為大規模進行基因識別、克隆和表達分析提供空前的動力,為生物論處學功能的發揮提供廣闊的空間。
ESTs已經被廣泛的套用於基因識別,因為ESTs的數目比GenBank中其它的核苷酸序列多,研究人員更容易在EST庫中搜尋到新的基因。
EST可以藉助於序列標籤位點(sequence-tagged sites)用於基因圖譜的構建。STS本身是從人類基因組中隨機選擇出來的長度在200-300bp左右的經PCR檢測的基因組中唯一的一段序列。來自mRNA的3’非翻譯區的ESTs更適合做為STSs,用於基因圖譜的繪製