fastQ格式:FASTQ是一種存儲了生物序列（通常是核酸序列）以及相應 -百科知識中文網

概念

FastQ格式是序列格式中常見的一種，FASTQ格式的序列一般都包含有四行，第一行由'@'開始，後面跟著序列的描述信息，這點跟FASTA格式是一樣的。第二行是序列。第三行由'+'開始，後面也可以跟著序列的描述信息。第四行是第二行序列的質量評價（quality values，註：應該是測序的質量評價），字元數跟第二行的序列是相等的。

FASTQ格式例子

@SEQ_ID

GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT

!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65

例如在NCBI看到的FASTQ格式如下：

@HWUSI-EAS100R:6:73:941:1973#0/1

GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTT

+HWUSI-EAS100R:6:73:941:1973#0/1

!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC6

其中第一行以@開頭，後面是reads的ID以及其他信息，例如上例中 HWUSI-EAS100R代表Illumina設備名稱，6代表flowcell中的第六個lane，73代表第六個lane中的第73個tile，941:1973代表該read在該tile中的x：y坐標信息；#0，若為多樣本的混合作為輸入樣本，則該標誌代表樣本的編號，用來區分個樣本中的reads；/1代表paired end中的前一個read。

第二行為read的序列。

緊接著下面兩行代表該read的質量。

第三行以“+”開頭，跟隨著該read的名稱（一般於@後面的內容相同），但有時可以省略，但“+”一定不能省。

第四行代表reads的質量。這一行可以詳細說一下！Illumina測序儀是按照螢光信號來判斷所測序的鹼基是哪一種的，例如紅黃藍綠分別對應ATCG，那么一旦出現一個紫色的信號該怎么判斷呢，因此對每個結果都有一個機率的問題。起初sanger中心用Phred quality score來衡量該read中每個鹼基的質量，既-10lgP ，其中P代表該鹼基被測序錯誤的機率，如果該鹼基測序出錯的機率為0.001，則Q應該為30，那么30+33=63，那么63對應的ASCii碼為“？”，則在第四行中該鹼基對應的質量代表值即為“？”，ASCii參考如圖2。

一般地，鹼基質量從

0-40，既ASCii碼為從 “！”（0+33）到“I”(40+33）。以上是sanger中心採用記錄read測序質量的方法，Illumina起初沒有完全依照sanger中心的方法來定義測序質量，而是把P換成了p/(1-p). 其他完全按照sanger的定義來做。但是他這形式在某些情況下是不準確的，可以看出當測序質量很高的情況下兩種形式幾乎沒區別，但低質量的鹼基則有區別了。

格式轉換

FASTQ格式與Fasta格式、GenBank等格式可以相互轉換。格式轉換器如下：

Biopython version 1.51 onwards (interconverts Sanger, Solexa and Illumina 1.3+)

EMBOSS version 6.1.0 patch 1 onwards (interconverts Sanger, Solexa and Illumina 1.3+)

BioPerl version 1.6.1 onwards (interconverts Sanger, Solexa and Illumina 1.3+)

BioRuby version 1.4.0 onwards (interconverts Sanger, Solexa and Illumina 1.3+)

BioJava version 1.7.1 to 1.8.x (interconverts Sanger, Solexa and Illumina 1.3+)

MAQ can convert from Solexa to Sanger (use this patch to support Illumina 1.3+ files).

fastx_toolkit The included fastq_quality_converter program can convert Illumina to Sanger

Illumina中套用

Illmina有多種測序儀，從早期的GA、Hiseq2000、Hiseq2500以及即將推廣的Hiseq X,Hiseq2000一個flowcell中包含8個lane，每個lane可以測一個文庫或多樣本的混合文庫，多樣本混合文庫如果需要後期區分則每個文庫需要一個獨特的標籤，即Index。其中一個lane包含3列(3個Swath)，每一列又包含8個tile，每一個tile又會種下不同的cluster，如圖1所示為Hiseq2500的FlowCell的一個表面。

fastQ格式

概念

FASTQ格式例子

格式轉換

Illumina中套用

相關詞條

fastQ格式

相關搜尋

熱門詞條