簡介
每個人從受精卵開始就繼承了父母的DNA遺傳信息,並且攜帶一生,不易改變。全基因組測序就是通過運用新一代高通量DNA測序儀,進行10-20倍覆蓋率的個人全基因組測序,然後與人類基因組精確圖譜比較,得到完整的個人全基因組序列,破譯個人全部的遺傳信息的過程。全基因組測序覆蓋面廣,能檢測個體基因組中的全部遺傳信息;準確性高,其準確率可高達99.99%。
全基因組測序揭示了人類生、老、病、死的奧秘,使人類從根本上認知疾病發生的原因,做到正確的治療疾病、儘早的預防疾病。
研究經過
1986年, Renato Dulbecco是最早提出人類基因組定序的科學家之一。他認為如果能夠知道所有人類基因的序列,對癌症的研究將會很有幫助。美國能源部(DOE)與美國國家衛生研究院(NIH),分別在1986年與1987年加入人類基因組計畫。除了美國之外,日本在1981年就已經開始研究相關問題,但是並沒有美國那樣積極。到了1988年,詹姆士·華生(DNA雙螺鏇結構發現者之一)成為NIH的基因組部門主管。1990年開始國際合作。1996年,多個國家招開百慕達會議,以2005年完成定序為目標,分配了各國負責的工作,並且宣布研究結果將會即時公布,並完全免費。
1998年,克萊格·凡特的塞雷拉基因組公司成立,而且宣布將在2001年完成定序工作。隨後國際團隊也將完成工作的期限提前。2000年6月26日,塞雷拉公司的代表凡特,以及國際合作團隊的代表弗朗西斯·柯林斯(Francis Collins),在美國總統柯林頓的陪同下發表演說,宣布人類基因組的概要已經完成。2001年2月,國際團隊與塞雷拉公司,分別將研究成果發表於《自然》與《科學》兩份期刊。在基因組計畫的研究過程中,塞雷拉基因組使用的是霰彈槍定序法(shotgun sequencing),這種方法較為迅速 ,但是仍需以傳統定序來分析細節。目前,全基因組測序技術主要包括第二代測序技術(NGS)和第三代測序技術。第二代測序技術已經能夠快速、低成本的進行全基因組測序,其設備供應商主要是Solexa (現被Illumina公司合併),454(羅氏公司)和SOLiD(AB公司)。第三代測序技術於2011年4月正式推廣,其單分子實時(SMRT)測序技術完全不同與第二代測序,它的序列讀長高達3000 bp(Pacific Biosciences 公司研發)。
技術路線
提取基因組DNA,然後隨機打斷,電泳回收所需長度的DNA片段(0.2~5kb),加上接頭,進行基因簇cluster製備或電子擴增E-PCR,最後利用Paired-End(Solexa)或者Mate-Pair(SOLiD)的方法對插入片段進行測序。然後對測得的序列組裝成Contig,通過Paired-End的距離可進一步組裝成Scaffold,進而可組裝成染色體等。組裝效果與測序深度與覆蓋度、測序質量等有關。目前常用的組裝有:SOAPdenovo、Trimity、Abyss等。
原理
雙末端(Paired-End)測序原理
測序深度(SequencingDepth):測序得到的鹼基總量(bp)與基因組大小(Genome)的比值,它是評價測序量的指標之一。測序深度與基因組覆蓋度之間是一個正相關的關係,測序帶來的錯誤率或假陽性結果會隨著測序深度的提升而下降。重測序的個體,如果採用的是雙末端或Mate-Pair方案,當測序深度在10~15X以上時,基因組覆蓋度和測序錯誤率控制均得以保證。
測序深度對基因組覆蓋度和測序錯誤率的影響
(HOM:純合體HET:雜合體)
全基因組重測序的個體,通過序列比對,可以找到大量的單核苷酸多態性(SNP),插入缺失(InDel,Insertion/Deletion)和結構變異(SV,StructureVariation)位點。SBC可以協助客戶,通過生物信息手段,分析不同個體基因組間的結構差異,同時完成SNP及基因組結構注釋。
分析流程
1.數據量產出
總鹼基數量、TotalMappingReads、UniquelyMappingReads統計,測序深度分析。
2.一致性序列組裝
與參考基因組序列(Referencegenomesequence)的比對分析,利用貝葉斯統計模型檢測出每個鹼基位點的最大可能性基因型,並組裝出該個體基因組的一致序列。
3.SNP檢測及在基因組中的分布
提取全基因組中所有多態性位點,結合質量值、測序深度、重複性等因素作進一步的過濾篩選,最終得到可信度高的SNP數據集。並根據參考基因組信息對檢測到的變異進行注釋。
4.InDel檢測及在基因組的分布
在進行mapping的過程中,進行容gap的比對並檢測可信的shortInDel。在檢測過程中,gap的長度為1~5個鹼基。對於每個InDel的檢測,至少需要3個Paired-End序列的支持。
5.StructureVariation檢測及在基因組中的分布
SBC能夠檢測到的結構變異類型主要有:插入、缺失、複製、倒位、易位等。根據測序個體序列與參考基因組序列比對分析結果,檢測全基因組水平的結構變異並對檢測到的變異進行注釋。