fastQ格式

FASTQ是一種存儲了生物序列(通常是核酸序列)以及相應的質量評價的文本格式。 它們都是以ASCII編碼的。現在幾乎是高通量測序的標準格式。NCBI Short Read Archive也是這格式,多了一些描述性辭彙而已。

概念

FastQ格式是序列格式中常見的一種,FASTQ格式的序列一般都包含有四行,第一行由'@'開始,後面跟著序列的描述信息,這點跟FASTA格式是一樣的。第二行是序列。第三行由'+'開始,後面也可以跟著序列的描述信息。第四行是第二行序列的質量評價(quality values,註:應該是測序的質量評價),字元數跟第二行的序列是相等的。

FASTQ格式例子

@SEQ_ID

GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT

+

!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65

例如在NCBI看到的FASTQ格式如下:

@HWUSI-EAS100R:6:73:941:1973#0/1

GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTT

+HWUSI-EAS100R:6:73:941:1973#0/1

!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC6

其中第一行以@開頭,後面是reads的ID以及其他信息,例如上例中 HWUSI-EAS100R代表Illumina設備名稱,6代表flowcell中的第六個lane,73代表第六個lane中的第73個tile,941:1973代表該read在該tile中的x:y坐標信息;#0,若為多樣本的混合作為輸入樣本,則該標誌代表樣本的編號,用來區分個樣本中的reads;/1代表paired end中的前一個read。

第二行為read的序列。

緊接著下面兩行代表該read的質量。

圖2,ASCii 圖2,ASCii

第三行以“+”開頭,跟隨著該read的名稱(一般於@後面的內容相同),但有時可以省略,但“+”一定不能省。

第四行代表reads的質量。這一行可以詳細說一下!Illumina測序儀是按照螢光信號來判斷所測序的鹼基是哪一種的,例如紅黃藍綠分別對應ATCG,那么一旦出現一個紫色的信號該怎么判斷呢,因此對每個結果都有一個機率的問題。起初sanger中心用Phred quality score來衡量該read中每個鹼基的質量,既-10lgP ,其中P代表該鹼基被測序錯誤的機率,如果該鹼基測序出錯的機率為0.001,則Q應該為30,那么30+33=63,那么63對應的ASCii碼為“?”,則在第四行中該鹼基對應的質量代表值即為“?”,ASCii參考如圖2。

一般地,鹼基質量從

0-40,既ASCii碼為從 “!”(0+33)到“I”(40+33)。以上是sanger中心採用記錄read測序質量的方法,Illumina起初沒有完全依照sanger中心的方法來定義測序質量,而是把P換成了p/(1-p). 其他完全按照sanger的定義來做。但是他這形式在某些情況下是不準確的,可以看出當測序質量很高的情況下兩種形式幾乎沒區別,但低質量的鹼基則有區別了。

格式轉換

FASTQ格式與Fasta格式、GenBank等格式可以相互轉換。格式轉換器如下:

Biopython version 1.51 onwards (interconverts Sanger, Solexa and Illumina 1.3+)

EMBOSS version 6.1.0 patch 1 onwards (interconverts Sanger, Solexa and Illumina 1.3+)

BioPerl version 1.6.1 onwards (interconverts Sanger, Solexa and Illumina 1.3+)

BioRuby version 1.4.0 onwards (interconverts Sanger, Solexa and Illumina 1.3+)

BioJava version 1.7.1 to 1.8.x (interconverts Sanger, Solexa and Illumina 1.3+)

MAQ can convert from Solexa to Sanger (use this patch to support Illumina 1.3+ files).

fastx_toolkit The included fastq_quality_converter program can convert Illumina to Sanger

Illumina中套用

圖1,Illumina 的 Flowcell 圖1,Illumina 的 Flowcell

Illmina有多種測序儀,從早期的GA、Hiseq2000、Hiseq2500以及即將推廣的Hiseq X,Hiseq2000一個flowcell中包含8個lane,每個lane可以測一個文庫或多樣本的混合文庫,多樣本混合文庫如果需要後期區分則每個文庫需要一個獨特的標籤,即Index。其中一個lane包含3列(3個Swath),每一列又包含8個tile,每一個tile又會種下不同的cluster,如圖1所示為Hiseq2500的FlowCell的一個表面。

相關詞條

相關搜尋

熱門詞條

聯絡我們