簡介
KEGG(京都基因與基因組百科全書)是基因組破譯方面的資料庫。在後基因時代一個重大挑戰是如何使細胞和有機體在計算機上完整的表達和演繹,讓計算機利用基因信息對更高層次和更複雜細胞活動和生物體行為作出計算推測。為達到此目的,人們建立了一個在相關知識基礎上的網路推測計算工具。在給出染色體中一套完整的基因的情況下,它可以對蛋白質互動(互動)網路在各種細胞活動起的作用作出預測。 KEGG 的PATHWAY 資料庫整合當前在分子互動網路(比如通道,聯合體)的知識,KEGG 的GENES/SSDB/KO 資料庫提供關於在基因組計畫中發現的基因和蛋白質的相關知識,KEGG 的COMPOUND/GLYCAN/REACTION資料庫提供生化複合物及反應方面的知識。
產生的背景
如何藉助計算機全面地展示細胞和生物所包含的生物學信息是後基因組時代的重大挑戰之一。科學家期望能夠根據基因組中的信息,用計算機計算或者預測出比較複雜的細胞中的通路或者生物的複雜行為。出於這個目的,日本京都大學生物信息學中心的Kanehisa實驗室於1995年建立了生物信息學資料庫KEGG。
特點
·KEGG是一個整合了基因組、化學和系統功能信息的資料庫。把從已經完整測序的基因組中得到的基因目錄與更高級別的細胞、物種和生態系統水平的系統功能關聯起來是KEGG資料庫的特色之一。··人工創建了一個知識庫,這個知識庫是基於使用一種可計算的形式捕捉和組織實驗得到的知識而形成的系統功能知識庫。它是一個生物系統的計算機模擬。··與其他資料庫相比,KEGG 的一個顯著特點就是具有強大的圖形功能,它利用圖形而不是繁縟的文字來介紹眾多的代謝途徑以及各途徑之間的關係,這樣可以使研究者能夠對其所要研究的代謝途徑有一個直觀全面的了解。
用途
各個資料庫中包含了大量的有用信息。基因組信息存儲在GENES資料庫里,包括完整和部分測序的基因組序列;更高級的功能信息存儲在PATHWAY資料庫里,包括圖解的細胞生化過程如代謝、膜轉運、信號傳遞、細胞周期,還包括同系保守的子通路等信息;KEGG的另一個資料庫LIGAND,包含關於化學物質、酶分子、酶反應等信息。
通過與世界上其它一些大型生物信息學資料庫的連線,KEGG可以為研究者提供更為豐富的生物學信息(LinkDB)。
KEGG提供了Java的圖形工具來訪問基因組圖譜,比較基因組圖譜和操作表達圖譜,以及其它序列比較、圖形比較和通路計算的工具,可以免費獲取。
影響及發展
KEGG建立了KEGG直系同源系統(theKEGG Orthology (KO)system),這個系統通過把分子網路的相關信息連線到基因組中,從而發展和促進了跨物種注釋流程。·結果表明,KEGG被當做一個參考知識庫,被廣泛的用於基因組測序和其他高通量實驗技術得到的大規模數據集的整合和解釋中。除了保持對基礎研究的支持,隨著KEGG分子網路的一些小變化,KEGG正在朝著更加偏向於實際套用的方向發展,這些套用主要集中在整合人類疾病、藥物和其他與健康相關的物質。
KEGG資料庫
KEGG是一個綜合資料庫,它們大致分為系統信息、基因組信息和化學信息三大類。進一步可細分為16個主要的資料庫。可以通過不同的顏色編碼來區分。
分類 | 資料庫 | 目錄 | 顏色 |
系統信息 | KEGG PATHWAY | KEGG通路圖 | |
KEGG BRITE | BRITE功能層次 | ||
KEGG MODULE | KEGG功能單元的模組 | ||
KEGG DISEASE | 人類疾病 | ||
KEGG DRUG | 藥物 | ||
KEGG ENVIRON | 天然藥物和與健康相關的物質 | ||
基因組信息 | KEGG ORTHOLOGY | KEGG直系同源(KO)組 | |
KEGG GENOME | KEGG中帶有完整基因組的物種 | ||
KEGG GENES | 在完整基因組中的基因目錄 | ||
KEGG SSDB | 與基因有關的序列相似性資料庫 | ||
化學信息 | KEGG COMPOUND | 代謝物及其他小分子化合物 | |
KEGG GLYCAN | 多糖 | ||
KEGG REACTION | 生化反應 | ||
KEGG RPAIR | 化學反應中的反應物對 | ||
KEGG RCLASS | RPAIR定義的反應級別 | ||
KEGG ENZYME | 酶命名法 |
KEGG對象標識符
資料庫中包含各種各樣的數據對象,這些數據對象是為了用來對生物系統進行計算機模擬的。因此,各個資料庫中的數據記錄都被稱為KEGG對象。這些對象可以通過KEGG對象標識符來識別,標識符由一個與資料庫相關的前綴加五個數字構成。
Database | Object | Prefix | Example |
KEGG PATHWAY | Pathway map | map, ko, ec, rn, (org) | hsa04930 |
KEGG BRITE | Functional hierarchy | br, jp, ko, (org) | ko01003 |
KEGG MODULE | KEGG module | M, (org)_M | M00010 |
KEGG DISEASE | Human disease | H | H00004 |
KEGG DRUG | Drug | D | D01441 |
KEGG ENVIRON | Crude drug, etc. | E | E00048 |
KEGG ORTHOLOGY | KO group | K | K04527 |
KEGG GENOME | KEGG organism | T | T01001 (hsa) |
KEGG GENES | Gene / protein | hsa:3643 | |
KEGG COMPOUND | Small molecule | C | C00031 |
KEGG GLYCAN | Glycan | G | G00109 |
KEGG REACTION | Reaction | R | R00259 |
KEGG RPAIR | Reactant pair | RP | RP04458 |
KEGG RCLASS | Reaction class | RC | RC00046 |
KEGG ENZYME | Enzyme | ec:2.7.10.1 |
當前資料庫中的記錄
KEGG Database as of 2013/6/5 | ||
KEGG PATHWAY | Pathway maps, reference (total) | 457(287,038) |
KEGG BRITE | Functional hierarchies, reference (total) | 146 (100,112) |
KEGG MODULE | KEGG modules, reference (total) | 592 (219,684) |
KEGG DISEASE | Human diseases | 1,359 |
KEGG DRUG | Drugs | 10,084 |
KEGG ENVIRON | Crude drugs and health-related substances | 849 |
KEGG ORTHOLOGY | KEGG Orthology (KO) groups | 17,661 |
KEGG GENOME | KEGG Organisms | 2,998 |
KEGG GENES | Genes in high-quality genomes (190 eukaryotes, 2336 bacteria, 153 archaea) | 12,462,216 |
KEGG SSDB | Best hit relations within GENES Bi-directional best hit relations within GENES | 181,088,147,758 3,841,515,171 |
KEGG DGENES | Genes in draft genomes (20 eukaryotes) | 514,175 |
KEGG EGENES | Genes as EST contigs (99 eukaryotes) | 3,792,883 |
KEGG MGENES | Genes in metagenomes (716 samples) | 90,754,418 |
KEGG COMPOUND | Metabolites and other small molecules | 17,187 |
KEGG GLYCAN | Glycans | 10,985 |
KEGG REACTION | Biochemical reactions | 9,545 |
KEGG RPAIR | Reactant pair chemical transformations | 14,500 |
KEGG RCLASS | Reaction class | 2,879 |
KEGG ENZYME | Enzyme nomenclature | 6,214 |
KEGG PATHWAY Database
KEGG PATHWAY 資料庫是一個手工畫的代謝通路的集合,包含以下幾方面的分子間相互作用和反應網路 :
1.新陳代謝
2.遺傳信息加工
3.環境信息加工
4.細胞過程
5.生物體系統
6.人類疾病
7.藥物開發
PATHWAY的五種類型
僅僅第一種參考通路(reference pathway)圖是手動畫出來的,其他的通路圖都是通過計算產生的。pathway中的每一個框(或線)都對應一個或多個K編號、EC編號及R編號。
·map -Reference pathway
對於代謝相關的通路,在referencepathway中,一個點同時表示一個基因、這個基因編碼的酶及這個酶參加的反應
·ko -Reference pathway (KO)
ko通路中的點只表示基因
·ec -Reference pathway (EC)
ec通路中的點只表示相關的酶
·rn -Reference pathway (Reaction)
Reaction通路中的點只表示該點參與的某個反應、反應物對及反應類型
·org- Organism-specific pathway map
對於所有的代謝和非代謝通路,K編號都被認為是基因的標識符,這個標識符在每一個物種中對應該物種中的某個基因,從而得到物種特異性的pathway。
KEGG ORTHOLOGY (KO) Database
KEGG參考通路圖,BRITE功能層次以及KEGG模組都是以一種廣泛的方式來表示,都可以用於所有物種。而KEGG直系同源系統(KO System) 是這一表示方式的基礎。包含手動定義的直系同源組,這些直系同源組就相當於KEGG通路中的點,BRITE層級中的點以及KEGG模組中的點。(這些點並不是某個具體物種的某一個基因,而是在許多物種中都存在的直系同源的某一個基因)。一旦基因被分配了KO標識或K編號,通過基因組注釋流程,物種特異性的通路圖、BRITE功能層次和KEGG模組就可以自動產生了。
直系同源與旁系同源
l直系同源(orthology) 是比較基因組學中最重要的定義。直系同源的定義是:
(1).在進化上起源於一個始祖基因並垂直傳遞的同源基因;
(2).分布於兩種或兩種以上物種的基因組;
(3).功能高度保守乃至於近乎相同,甚至於其在近緣物種可以相互替換;
(4).結構相似;
(5).組織特異性與亞細胞分布相似。
l旁系同源(paralogy)基因是指同一基因組(或同系物種的基因組)中,由於始祖基因的加倍而橫向產生的幾個同源基因。直系與旁系的共性是同源,都源於各自的始祖基因。其區別在於:在進化起源上,直系同源是強調在不同基因組中的垂直傳遞,旁系同源則是在同一基因組中的橫向加倍;在功能上,直系同源要求功能高度相似,而旁系同源在定義上對功能上沒有嚴格要求,可能相似,但也可能並不相似(儘管結構上具一定程度的相似),甚至於沒有功能(如基因家族中的假基因)。
ko編號表示一個通路,這個通路是不分物種的,相當於所有物種的這一通路的並集。
eg:ko04722
K編號表示一個基因,是ko通路中的基本單位,某一K編號代表的不是某一具體物種的基因,而是所有物種的某一同源基因的統稱。