ORF
開放閱讀框[open reading frame,ORF] 是結構基因的正常核苷酸序列,從起始密碼子到終止密碼子的閱讀框可編碼完整的多肽鏈,其間不存在使翻譯中斷的終止密碼子。
英文原文
An open reading frame (ORF) is a portion of a gene’s sequence that contains a sequence of bases, uninterrupted by stop sequences, that could potentially encode a protein. When a new gene is identified and its DNA sequence deciphered, it is still unclear what its corresponding protein sequence is. This is because, in the absence of any other knowledge, the DNA sequence can be translated or read in six possible reading frames (three for each strand, corresponding to three different start positions for the first codon). ORF identification involves scanning each of the six reading frames and determining which one(s) contains a stretch of DNA sequence bounded by a start and stop codon, yet containing no start or stop codons within it; a sequence meeting these conditions could correspond to the actual single product of the gene. The identification of an ORF provides the first evidence that a new sequence of DNA is part or all of a gene encoding for a particular protein.
核苷酸序列
在構成基因的核苷酸序列中存在著一些最終翻譯成蛋白的鹼基段,每三個連續鹼基(即三聯“ 密碼子”) 編碼相應的胺基酸。其中有一個起始“密碼子”--AUG/ATG和三個終止“ 密碼子”,終止“ 密碼子”提供 終止信號。當細胞器核糖體沿著核酸合成蛋白鏈並使其不斷延伸的過程中遇到終密碼子時,蛋白的延伸反應終止,一個成熟(或提前終止的突變)蛋白產生。因此開放閱讀框是基因序列的一部分,包含一段可以編碼蛋白的 鹼基序列。由於擁有特殊的起始密碼子和直到可以從該段鹼基序列產生合適大小蛋白才出現的終止密碼子,該段鹼基序列編碼一個蛋白。
找ORF的軟體
現在有很多找ORF的軟體,包括線上的,如:ORF Finding的功能ORF Finding 被用來預測已存在的編碼區的小基因序列。它較早應於序列設計,套用優於長片斷、高質量的匹配。進而,它提供了比用標準基因編碼查詢更有用的信息。ORF Finding 把提交序列分成六個亞區,並對這六個閱讀框分別進行默認,賦予每個亞區一個確定其編碼內容的度量, 如果可能,將對每一亞區進行進一步分析。每個亞區按照已有的分類結果,被隨機提交給查找它們是否編碼 蛋白質的特定測試收集器。最後只有那些具有編碼潛能的重要區域才被報導。ORF Finding 識別是證明一個新的DNA序列編碼特定的蛋白質的部分或全部的先決條件,可用於大規模的開放式閱讀框尋找。
使用說明
使用說明測試過程:當一個基因被識別、其DNA序列被解讀時,人們往往仍然無法弄清相應的蛋白序列是什麼。這是因為在沒有其它信息的前提下,DNA序列可以按六種框架閱讀和翻譯 (每條鏈三種,對應三種不同的終止密碼子)。 ORF Finding 針對小基因序列,搜尋並報導可能的蛋白質編碼區,它檢測這六個閱讀框架,並尋找以啟動子和 終止子為界限的DNA序列,符合這些條件的序列有可能對應一個真正的單一的基因產物。ORF Finding 通過如下方式處理您的序列: ·定位六個閱讀框上的ORF候選區域 ·對每個候選區域的編碼可能性進行評估 ·如果可能性很高,就把該區域作為可能的蛋白質編碼區進行報導 編碼可能性:是通過從物種訓練模擬器收集來的統計數據確定的用。ORF Finding 進行蛋白質編碼區的預測,有三步程式。 第一步:延伸無終止密碼子的序列,把延伸的片斷定位在六個閱讀框上;它們是下一步進行 開放式閱讀框研究的候選序列。 第二步:用物種hexamer統計表來估算ORF候選區域上蛋白質編碼部分編碼蛋白質的最大可能性。 第三步:根據序列結構和區域最可能成分來計算蛋白質編碼的可能性。 這種測試利用物種的統計學原理把編碼區從非編碼區區分出來,其中包括編碼蛋白質的最大可能性的估算、3 個過程的測試 和 ORF片斷大小的確定。這種測試套用於物種的二次形式,得到一個三個自由度的 chi-square統計量,被稱為候選ORF的二次判別式。這個判別式對於編碼區趨向於取大值,對於非編碼區 趨向於小值,並被固定化,所以非編碼區獲取的值趨向於小於1。 一般通過第一步和第二步,大約61%的非編碼區域產生值小於1的二次判別式。89%的區域的期望值小於2。
發現
經多次套用發現,5.0的結果很理想,它是介於正、誤之間的閾值。 使用方法: 首先選擇你測試的序列的來源(物種),然後直接在輸入 框內填寫您的DNA序列,進行提交即可。但輸入序列的長度不得小於50bp。結果說明:提供最優的潛在開放閱讀框位置。通常, ORF Finding 會把您提交的序列進行檢測,然後根據閱讀框的次序(+1,+2, +3,-1,-2,-3),給出各閱讀框架的蛋白質編碼區域的 詳細信息。如果同一個閱讀框包含幾個蛋白質編碼區域的話,則這一開放式閱讀框中蛋白質編碼區域 會按照它們的起始核苷酸在該閱讀框上的鹼基位置依次給出。編碼區域的詳細信息包括:
·Numb x: 編碼區編號。從1依次增加,從此您可以知道各編碼區的相對序號和您提交的序列的總編碼區數目。
·Predicted start、Predicted end: 預測的基因編碼區的開始、結束。是指該閱讀框的該編碼區上編碼蛋白質的核苷酸的起始和結束位置。
·Reading frame:閱讀框。六種框架(每條鏈三種,對應三種不同的起始密碼子)中的哪一種。·Type:類型。說明這一蛋白質編碼區是預測出來的還是存在的。
·ORF start、ORF end:開放式閱讀開始、結束。即這一編碼區的起始和結束。它除包括編碼蛋白質的核酸序列外,還包括調控基因、起始密碼子、終止密碼子等。
·Spectral:吸收光譜。 該段核苷酸的吸收光譜數。
·ORF length:ORF長度。·Max likelihood:最大可能性。請參考 測試過程 中的 編碼可能性。
·MLE length score:最大可能性估量長度評估。即該編碼區上編碼部分占整個ORF區的比例。
·Quadratic discriminant:二次判別式的值。對於編碼區趨向於取大值,非編碼區趨向於取小值。
開讀閱讀框的預測
開讀框架(Open Reading Frame: ORF)的預測常與第一個ATG和終止密碼子的確定相關,但由於EST序列相對較低的測序質量,在測序過程中出現的鹼基刪除或插入錯誤(稱為indel錯誤)將引起讀框移動,甚至出現假終止密碼子,所以,僅憑第一個ATG和終止密碼子是不足以確定ORF的。