細菌基因組結構特點
(1)細菌的染色體基因組通常僅由一條環狀雙鏈DNA分子組成細菌的染色體相對聚集在一起,形成一個較為緻密的區域,稱為類核(nucleoid)。類核無核膜與胞漿分開,類核的中央部分由RNA和支架蛋白組成,外圍是雙鏈閉環的DNA超螺旋。染色體DNA通常與細胞膜相連,連線點的數量隨細菌生長狀況和不同的生活周期而異。在DNA鏈上與DNA複製、轉錄有關的信號區域與細胞膜優先結合,如大腸桿菌染色體DNA的複製起點(OriC)、複製終點(TerC)等。細胞膜在這裡的作用可能是對染色體起固定作用,另外,在細胞分裂時將複製後的染色體均勻地分配到兩個子代細菌中去。有關類核結構的詳細情況目前尚不清楚。
(2)具有操縱子結構(有關操縱子結構詳見基因表達的調控一章)其中的結構基因為多順反子,即數個功能相關的結構基因串聯在一起,受同一個調節區的調節。數個操縱子還可以由一個共同的調節基因(regulatorygene)即調節子(regulon)所調控。
(3)在大多數情況下,結構基因在細菌染色體基因組中都是單拷貝但是編碼rRNA的基因rrn往往是多拷貝的,這樣可能有利於核糖體的快速組裝,便於在急需蛋白質合成時細胞可以在短時間內有大量核糖體生成。
(4)和病毒的基因組相似,不編碼的DNA部份所占比例比真核細胞基因組少得多。
(5)具有編碼同工酶的同基因(isogene)例如,在大腸桿菌基因組中有兩個編碼分支酸(chorismicacid)變位酶的基因,兩個編碼乙醯乳酸(acetolactate)合成酶的基因。
(6)和病毒基因組不同的是,在細菌基因組中編碼順序一般不會重疊,即不會出現基因重疊現象。
(7)在DNA分子中具有各種功能的識別區域如複製起始區OriC,複製終止區TerC,轉錄啟動區和終止區等。這些區域往往具有特殊的順序,並且含有反向重複順序。
(8)在基因或操縱子的終末往往具有特殊的終止順序,它可使轉錄終止和RNA聚合酶從DNA鏈上脫落。例如大腸桿菌色氨酸操縱子後尾含有40bp的GC豐富區,其後緊跟AT豐富區,這就是轉錄終止子的結構。終止子有強、弱之分,強終止子含有反向重複順序,可形成莖環結構,其後面為polyT結構,這樣的終止子無需終止蛋白參與即可以使轉錄終止。而弱終止子儘管也有反向重複序列,但無polyT結構,需要有終止蛋白參與才能使轉錄終止。
細菌基因組學研究策略
細菌基因組的研究策略主要分為DNA的提取及測序、基因組組裝、基因組完成(Genomefinishing)、基因預測、基因注釋和基因組比較分析六大部分。
DNA 的提取及測序
首先是DNA的提取及測序。DNA提取時要保證DNA純度,同時要避免DNA污染。目前,主要用基因組測序有兩種方法:1,基於第二代測序平台的策略-羅氏454+illumina測序+ABI3730:二代測序讀長(reads)有限,最長的是羅氏454,現在據說能有400bp吧,illumina測序和其他測序就只能有150bp,現在測序又是將基因組打斷後測序,但仍然可能測得的讀長可能不夠長,導致一部分信息丟失,於是產生gap,這個只要根據其上下游已測得的序列信息進行引物設計,再用一代測序補gap即可消除,因此得到細菌基因組完成圖;2,基於第三代測序平台的策略:PacBioRSII平台+illumina測序:該方法採用的數據是Illumina生成的短讀序片段、PacificBiosciences生成的長讀序,即可得到0Gap細菌基因組完成圖,可2周內完成測序和生物信息學分析。
細菌基因組學是研究細菌全基因組DNA序列及其結構與功能的學科。1995年,科學家獲得了流感嗜血桿菌(HaemophilusinfluenzaeRd)的全基因組序列,這是第一個完整的基因組序列,也是第一個完成的細菌基因組序列。緊接著古細菌詹氏甲烷球菌(Methanococcusjannaschii)基因組、大腸桿菌(EscherichiacoliK-12)基因組等也相繼完成。細菌基因組研究不僅有利於研究細菌的基本生命過程,同時也對高等真核生物的基因組學及後基因組學研究提供了參考和平台。到目前為止,NCBI上記錄了1534個細菌基因組,包括了103個古細菌和1431個真細菌(2011-4-24),其中中國科學家完成了44個細菌基因組的測序工作。
基因組學研究中,測序只是一個技術問題,只是一個最基本的數據積累。只要建立了成熟、穩定的方法,測序就只是一個技術活和工作量的問題了。通過訓練一些熟練的技工,就可以進行流程化的操作,按既定的技術方案執行就可以完成任務。但是基因組學的目的不僅僅是為了獲得基因組全序列,也不是為了找到一兩個基因的序列,而是要闡明基因組所包含的所有信息、功能。測序工作的完成,只是解決了A、G、C、T這四個字母的排列順序的問題,得到的只是一部沒有任何標點符號、詞句和段落的天書,解讀這本“天書”是一個非常艱巨的工作。因此,獲得基因組全序列只是基因組學這個萬里長征中邁出的第一步。
基因組組裝
常用的軟體有Newbler、AMOScmp、Phred/Phrap/Consed和Velvet等,可以根據自己的數據選擇合適的組裝軟體,也可以結合多種方法獲得較好的組裝結果。
基因組完成(Genome finishing)
基因組完成(Genomefinishing)即確定組裝獲得的Contigs之間的連線順序並修補Gaps。可以按照以下幾個步驟進行:首先,計算Contigs和基因組的平均Reads覆蓋度,通過Contigs與基因組平均Reads覆蓋度的比較,獲得Uniquecontigs和Repeatcontigs以及Repeatcontigs的重複次數。
基因預測
常用的蛋白質編碼基因預測軟體有Glimmer、GeneMarkS和Prodigal,通常可以任選其中一款軟體進行預測,也可以結合多個軟體以獲得較好的預測結果。此外,ZCURVE是基於DNA序列Zcurve理論的蛋白質編碼基因識別軟體,具有較高的基因起始位點預測準確性;GS-Finder是不依賴於rRNA序列的細菌基因組翻譯起始位點識別軟體,能大大提高翻譯起始位點預測的準確性;OperonDB是比較常用的操縱子預測軟體,可以用來預測共同轉錄的基因簇。
基因注釋
這一步通常要整合多個資料庫,如NCBI的nr庫、InterPro、COG和KEGG等,通過序列比對進行預測基因的注釋。此外,還可以利用一些特定功能的軟體或者資料庫進行相應的分析,如用SignalP預測信號肽、TMHMM預測跨膜結構、ISfinder預測插入序列、VFDB預測毒力因子、Islander資料庫查詢基因組島、MobilomeFINDER和IslandViewer[鑑定基因組島、PAIDB預測潛在的致病島、Repeat-match預測基因組重複序列、TandemrepeatFinder尋找串聯重複序列、CRISPRfinder預測CRISPR序列、Phage-finder尋找噬菌體序列、TCDB注釋膜轉運蛋白、Ori-Finder尋找複製起始位點、ARDB鑑定和注釋抗菌素抗性基因、ACLAME注釋可變遺傳因子(Mobilegeneticelementselements)和TADB資料庫搜尋Type2toxin-antitoxin位點等。另外,有些基因是生物體生存不可或缺的基因,即必需基因,它們是生命的基礎。DEG資料庫收集了一些物種的必需基因,也可以用於注釋必需基因,這些必需基因是很好的抗菌藥物靶基因。注釋結束後,對基因注釋結果進行檢查,比如基因之間是否有Overlap、是否存在假基因等,可以利用MciobialGenomeSubmissionCheck程式進行檢查。
基因組比較分析
獲得完整基因組及其注釋後,通常會進行相近物種之間或同一物種不同株之間的基因組比較分析。常用的細菌基因組比較分析軟體和資料庫有ACT、Mauve、MUMmer、MicrobesOnline、mGenomeSubtractor和xBASE等。ACT(ArtemisComparisonTool),是一款進行基因組及其注釋之間比較的可視化軟體,支持多種輸入格式(EMBL,GenBank,FASTA和GFF格式),可以用來鑑定相似序列、插入、缺失、重排等。
細菌基因組學研究成果
1, 極端嗜酸甲烷氧化細菌V4基因組學研究
溫室效應的加劇正在導致全球氣候變暖。甲烷是第二重要的溫室氣體,僅排在CO2之後。一些特殊的細菌可以利用環境中的甲烷來生長,被稱為甲烷利用細菌。它們扮演著生物過濾器的角色,減少了散發到大氣中的甲烷數量,對全球溫室效應有重要影響。2007年我國學者、紐西蘭GNS極端微生物研究組、夏威夷大學微生物系合作,針對在紐西蘭發現了一株全新的甲烷利用細菌利用傳統的sanger測序法完成了全基因組測序,並從基因組水平解析了該細菌利用甲烷的機制,相關成功發表在Nature上。
2,重要採油細菌的基因組破譯和重油降解分子機制的研究
針對一株分離自我國大港油田的、具有較強長鏈烷烴降解能力的細菌進行基因組測序,我國學者破譯了嗜熱採油細菌的全基因組序列,並在世界上首次揭示了重油主要組分-長鏈烷烴的微生物降解途徑,獲得了具有重要套用價值的生物酶。項目成果於2007年3月發表在國際權威學術期刊《美國國家科學院院刊》(PNAS)上,並於同年12月被教育部評選為“2007年中國高校十大科技進展”。
細菌基因組學研究機遇與挑戰
伴隨著國際人類基因組計畫的進行,細菌基因組學也獲得了快速的發展。隨著第二代測序技術的出現,細菌基因組學研究迎來了第二次高峰。目前,細菌基因組測序多採用454或者454加Solexa的方式,不但加快了數據產出,而且有利於基因組拼接。獲得細菌完整基因組後,就要進行細菌基因組的分析和注釋。常用的細菌基因組分析和注釋工具如上文所述,我們也可以參考PauStothard等的綜述。細菌的研究現在多集中於模式細菌(如大腸桿菌)和致病菌,主要研究細菌的毒素、運動、粘附和生物膜形成、分泌系統、細胞表面蛋白、代謝及應激反應等。此外,通過相似物種基因組比較分析來揭示病原菌相關遺傳線索,也是細菌基因組學研究的一個重要方向。
雖然第二代測序技術給細菌基因組學研究帶來了新的機遇,但是也帶來了一些新的問題,比如基於焦磷酸測序的454測序方法常在單鹼基重複序列區域出現插入/缺失,會導致注釋基因的移碼突變;Solexa測序法獲得的Reads長度較短而影響拼接結果;細菌基因組組裝及分析流程較繁瑣,亟待新的方法或高度整合型的處理流程來加快分析過程等。