生信之旅-生物信息常用文件格式（2）- FASTQ

生物信息常用文件格式（2）- FASTQ

burning 2021年06月03日 1042

生物文件格式

FASTQ格式是一种保存生物序列（通常为核酸序列）及其测序质量得分信息的文本格式。

格式

FASTQ文件中，一条序列信息由四行组成。

第一行以@开头，之后为序列的标志符和描述信息；
第二行为序列信息；
第三行以+开头，后面可加上序列标志符，描述信息，也可以不加任何东西；
第四行为第二行每个碱基的质量得分，以单个ASCII字符表示；

一个FASTQ例子如下：

@SIM:1:FCX:1:15:6329:1045 1:N:0:2
TCGCACTCAACGCCCTGCATATGACAAGACAGAATC
+
<>;##=><9=AAAAAAAAAA9#:<#<;<<<????#=

对于第三行来说，一般的格式如下，后面还有可能会有barcode信息

@<instrument>:<run number>:<flowcell ID>:<lane>:<tile>:<x-pos>:<y-pos> <read>:<is filtered>:<control number>:<sample number>

测序质量

第四行保存了测序质量值，其主要通过以下方法进行计算：

假设测序质量错误率为P，则P取值越小越好，如果直接存储小数点，则会占用比较多的位置，所以人们对它进行了转换：

测序错误率与质量值
P	Q
0.1	10
0.01	20
0.001	30
0.0001	40

在上面的基础上，将Q值转为ASCII码，保存在FASTQ文件中。在转换为ASCII码的时候，由于前33个字符无法显示，所以一般会将Q值加上33或者加上64后再进行转换为ASCII码，即Phred33或者Phred64。目前基本上都是Phred33了。一般在实际工作中会把质量分数小于20的碱基认为是不可靠的，当这样的碱基占read的20%以上的话，即会考虑丢弃该条read。

参考：

https://help.basespace.illumina.com/articles/descriptive/fastq-files/

https://zh.wikipedia.org/wiki/FASTQ格式

生信之旅

生物信息常用文件格式（2）- FASTQ

格式

测序质量

参考：

最新评论：

发表评论

电子邮件地址不会被公开。必填项已用*标注

公告栏

阅读量排行

标签

服务器推荐

欢迎关注公众号

生信之旅

格式

测序质量

参考：

最新评论：

发表评论取消回复

电子邮件地址不会被公开。 必填项已用*标注

公告栏

阅读量排行

标签

服务器推荐

欢迎关注公众号

发表评论

电子邮件地址不会被公开。必填项已用*标注