簡介
在構成基因的核苷酸序列中存在一些最終翻譯成蛋白的鹼基段。每三個連續鹼基,名為三聯“密碼子”——編碼相應的胺基酸(胺基酸是構成蛋白的基本單位)。有三個“密碼子”提供終止信號,也就是說,當從DNA和RNA合成蛋白鏈並使其不斷延伸的細胞機器遇到代表終止的“密碼子”時,蛋白的延伸反應終止,一個成熟(或提前終止的突變蛋白)產生。
研究方法
現在有很多找ORF的軟體,包括線上的,如:ORF Finding。
軟體功能
ORF Finding 被用來預測已存在的編碼區的小基因序列。它較早應於序列設計,套用優於長片斷、高質量的匹配。進而,它提供了比用標準基因編碼查詢更有用的信息。ORF Finding 把提交序列分成六個亞區,並對這六個閱讀框分別進行默認,賦予每個亞區一個確定其編碼內容的度量, 如果可能,將對每一亞區進行進一步分析。每個亞區按照已有的分類結果,被隨機提交給查找它們是否編碼 蛋白質的特定測試收集器。最後只有那些具有編碼潛能的重要區域才被報導。ORF Finding 識別是證明一個新的DNA序列編碼特定的蛋白質的部分或全部的先決條件,可用於大規模的開放式閱讀框尋找。
使用說明
測試過程:當一個基因被識別、其DNA序列被解讀時,人們往往仍然無法 弄清相應的蛋白序列是什麼。這是因為在沒有其它信息的前提下,DNA序列可以按六種框架閱讀和翻譯 (每條鏈三種,對應三種不同的起始密碼子)。 ORF Finding 針對小基因序列,搜尋並報導可能的蛋白質編碼區,它檢測這六個閱讀框架,並尋找以啟動子和 終止子為界限的DNA序列,符合這些條件的序列有可能對應一個真正的單一的基因產物。
原理
ORF Finding 通過如下方式處理您的序列:
定位六個閱讀框上的ORF候選區域對每個候選區域的編碼可能性進行評估。如果可能性很高,就把該區域作為可能的蛋白質編碼區進行報導。
編碼可能性:是通過從物種訓練模擬器收集來的統計數據確定的用。ORF Finding 進行蛋白質編碼區的預測,有三步程式。
第一步:延伸無終止密碼子的序列,把延伸的片斷定位在六個閱讀框上;它們是下一步進行 開放式閱讀框研究的候選序列。
第二步:用物種hexamer統計表來估算ORF候選區域上蛋白質編碼部分編碼蛋白質的最大可能性。
第三步:根據序列結構和區域最可能成分來計算蛋白質編碼的可能性。
這種測試利用物種的統計學原理把編碼區從非編碼區區分出來,其中包括編碼蛋白質的最大可能性的估算、3 個過程的測試 和 ORF片斷大小的確定。這種測試套用於物種的二次形式,得到一個三個自由度的 chi-square統計量,被稱為候選ORF的二次判別式。這個判別式對於編碼區趨向於取大值,對於非編碼區 趨向於小值,並被固定化,所以非編碼區獲取的值趨向於小於1。 一般通過第一步和第二步,大約61%的非編碼區域產生值小於1的二次判別式。89%的區域的期望值小於2。 經多次套用發現,5.0的結果很理想,它是介於正、誤之間的閾值。
使用方法: 首先選擇你測試的序列的來源(物種),然後直接在輸入 框內填寫您的DNA序列,進行提交即可。但輸入序列的長度不得小於50bp。
結果說明:
提供最優的潛在開放閱讀框位置。通常, ORF Finding 會把您提交的序列進行檢測,然後根據閱讀框的次序(+1,+2, +3,-1,-2,-3),給出各閱讀框架的蛋白質編碼區域的 詳細信息。如果同一個閱讀框包含幾個蛋白質編碼區域的話,則這一開放式閱讀框中蛋白質編碼區域 會按照它們的起始核苷酸在該閱讀框上的鹼基位置依次給出。編碼區域的詳細
信息包括:
·Numb x: 編碼區編號。從1依次增加,從此您可以知道各編碼區的相對序號和您提交的序列的總編碼區數目。
·Predicted start、Predicted end: 預測的基因編碼區的開始、結束。是指該閱讀框的該編碼區上編碼蛋白質的核苷酸的起始和結束位置。
·Reading frame:閱讀框。六種框架(每條鏈三種,對應三種不同的起始密碼子)中的哪一種。
·Type:類型。說明這一蛋白質編碼區是預測出來的還是存在的。
·ORF start、ORF end:開放式閱讀開始、結束。即這一編碼區的起始和結束。它除包括編碼蛋白質的核酸序列外,還包括調控基因、起始密碼子、終止密碼子等。
·Spectral:吸收光譜。 該段核苷酸的吸收光譜數。
·ORF length:ORF長度。
·Max likelihood:最大可能性。請參考 測試過程 中的 編碼可能性。
MLE length score:最大可能性估量長度評估。即該編碼區上編碼部分占整個ORF區的比例。
·Quadratic discriminant:二次判別式的值。對於編碼區趨向於取大值,非編碼區趨向於取小值。