RNA-seq流程学习笔记(4)-使用FastQC软件对fastq格式的数据进行质量控制

今天开始学习使用FastQC软件对范例SRA测序文件的质量进行分析。
主要参考文章:
RNA-seq(3):sra到fastq格式转换并进行质量控制
转录组入门(3):了解fastq测序数据
用FastQC检查二代测序原始数据的质量
FastQC Tutorial & FAQ
从零开始完整学习全基因组测序(WGS)数据分析:第2节 FASTA和FASTQ

数据质控是一个综合的评价标准,其中主要指标为碱基质量含量分布,如果这两个指标合格,后面大部分指标都可以通过;如果这两项不合格,其余都会受到影响。
其中一些指标并不适合所有数据,例如DNA测序数据与RNA测序数据之间的差异等,要根据具体数据类型具体分析。

FASTA的介绍
我们接触到的序列信息有FASTA和FASTQ两种格式,这是存储核苷酸序列信息(DNA序列)或者蛋白质序列信息最常使用的两种纯文本文件。
FASTA存的都是已经排列好的序列(如参考序列),起源于一款“FASTA”的比对软件,之后便以FASTA作为这种存储有顺序的序列数据的文件后缀,文件后缀除了.fasta之外,也常用.fa或者.fa.gz(gz压缩),包括常用的参考基因组序列、蛋白质序列、编码DNA序列(coding DNA sequence,简称CDS)、转录本序列等文件。
FASTA文件主要由两个部分构成:序列头信息(有时包括一些其它的描述信息)和具体的序列数据。序列头信息独占一行,以大于号(>)开头作为识别标记,其中除了记录该条序列的名字之外,有时候还会接上其它的信息。紧接的下一行是具体的序列内容,直到另一行碰到另一个大于号(>)开头的新序列或者文件末尾。

>gene_00284728 length=231;type=dna
GAGAACTGATTCTGTTACCGCAGGGCATTCGGATGTGCTAAGGTAGTAATCCATTATAAGTAACATG
CGCGGAATATCCGGGAGGTCATAGTCGTAATGCATAATTATTCCCTCCCTCAGAAGGACTCCCTTGC
GAGACGCCAATACCAAAGACTTTCGTAAGCTGGAACGATTGGACGGCCCAACCGGGGGGAGTCGGCT
ATACGTCTGATTGCTACGCCTGGACTTCTCTT

FASTQ的介绍
FASTQ存的则是产生自测序仪的原始测序数据,它由测序的图像数据转换过来,也是文本文件,文件大小依照不同的测序量(或测序深度)而有很大差异,小的可能只有几M,大的则常常有几十G上百G,文件后缀通常都是.fastq,.fq或者.fq.gz(gz压缩)。
FASTQ有独特的格式:每四行成为一个独立的单元,我们称之为read。具体的格式描述如下:
第一行:以‘@’开头,是这一条read的名字,这个字符串是根据测序时的状态信息转换过来的,中间不会有空格,它是 每一条read的唯一标识符,同一份FASTQ文件中不会重复出现,甚至不同的FASTQ文件里也不会有重复;
第二行:测序read的序列,由A,C,G,T和N这五种字母构成,这也是我们真正关心的DNA序列,N代表的是测序时那些无法被识别出来的碱基;
第三行:以‘+’开头,在旧版的FASTQ文件中会直接重复第一行的信息,但现在一般什么也不加(节省存储空间);
<

  • 19
    点赞
  • 99
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值