基因本體

基因本體

基因本體(Gene Ontology,GO)是一個在生物信息學領域中廣泛使用的本體,它涵蓋生物學的三個方面:細胞組分、分子功能、生物過程。

簡介

Gene Ontology

1998年由研究三種模式(果蠅、小鼠和酵母)基因組的研究者共同發起組織了一個稱為基因本體聯盟的專業團隊。創建基因本體的初衷是希望提供一個可具代表性的規範化的基因和基因產物特性的術語描繪或詞義解釋的工作平台,使生物信息學研究者對基因和基因產物的數據能夠進行統一的歸納、處理、解釋和共享。基因本體的建立促使生物信息學的研究進入了“書同文”的統一時代,這是一座生命信息學的“巴比倫塔”。

基因本體涉及的基因和基因產物辭彙分為三大類,涵蓋生物學的三個方面:

細胞組分(cellular component):細胞的每個部分和細胞外環境。

分子功能(molecular function):可以描述為分子水平的活性(activity),如催化(catalytic)或結合(binding)活性。

生物過程(biological process):生物學過程系指由一個或多個分子功能有序組合而產生的系列事件。其定義有廣義和狹義之分,在詞義上可以區分為泛指和特指。一般規律是,一個過程是由多個不同的步驟組成。需要指出的是,生物學過程與途徑或通路(pathway)不是同一回事。

內容詳解

基因本體是一個有向無環圖(DAG)型的本體。目前,GO中使用了is_a和part_of和regulates三種關係。

Ontology: 哲學中稱為本體論/存在論,這裡本質是指一系列特定的文字可用來形容一些特定的模式、元件或角色,因此在國外的華人生物信息學家中試譯為語義(學)。

GO(gene ontology)對大家而言也許會是一個相對陌生的名詞,但是它已經成為生物信息領域中一個極為重要的方法和工具,並正在逐步改變著我們對生物學數據的組織和理解方式,它的存在已經大大加快了我們對所擁有的生物數據的整合和利用,我們應該逐步學會理解和掌握這種思想和工具。

眾所周知,sequence based biology中的核心內容即是對序列的注釋(annotation),其中主要包含結構注釋(structural annotation)和功能注釋(functional annotation),前者涉及分析序列在基因組中的具體位置以及外顯子、內含子、啟動子等位置,而後者則是推斷序列編碼產物的功能,也正是我們在六月論題中所著重探討的。應該說,這二者是相互關聯的。

隨著多種生物基因組的相繼解碼,同時大量表達序列標籤(ESTs)以及基因表達譜相關數據的積累,使得注釋描述的工作量和複雜度大大增加。然而另一方面,大多數基因在不同真核生物中擁有共同的主要生物功能,通過在某些物種中獲得的基因或者蛋白質(shared protein)的生物學信息,可以用以解釋其他物種中對應的基因或蛋白(especially in comparative genomics)。由於這些繁複的功能信息主要是包含在積累的文獻之中,如何有效的提取和綜合這些信息就是我們面臨的核心困難,這也是GO所要著力解決的問題。通過建立一套具有動態形式的控制字集(controlled vocabulary),來解釋真核基因及蛋白在細胞內所扮演的角色,並隨著生命科學研究的進步,不斷積累和更新。一個ontology會被一個控制字集來描述並給予一定的名稱,通過制定“本體”ontologies並運用統計學方法及自然語言處理技術,可以實現知識管理的專家系統控制。

到目前為止,Gene Ontology Consortium(GO的發起組織)的資料庫中有3大獨立的ontology被建立起來:biological process生物過程, molecular function分子功能及cellular component細胞組分。而這三個ontology下面又可以獨立出不同的亞層次,層層向下構成一個ontologies的樹型分支結構。可以說, GO是生物學的統一化工具。

聯合會所建立的資料庫,旨在建立一個適用於各種物種的,對基因和蛋白質的功能進行限定和描述的,並能隨著研究不斷深入而更新的語義辭彙標準。採用階層系統對基因進行分類,將功能一致的基因放在同一層

相關詞條

相關搜尋

熱門詞條

聯絡我們