RNA-seq流程学习笔记（4）-使用FastQC软件对fastq格式的数据进行质量控制

最新推荐文章于 2024-09-13 22:26:38 发布

垚垚爸爱学习

最新推荐文章于 2024-09-13 22:26:38 发布

阅读量1.5w

点赞数 19

分类专栏： RNA-seq学习笔记

本文链接：https://blog.csdn.net/xiaomotong123/article/details/106217791

版权

本文详细介绍了使用FastQC软件对RNA-seq测序数据进行质量控制的过程，包括FastQC的功能、使用方法及结果解读，如碱基质量、序列内容分布、GC含量、N碱基比例等关键指标的分析，帮助理解测序数据的质量状况。

摘要由CSDN通过智能技术生成

今天开始学习使用FastQC软件对范例SRA测序文件的质量进行分析。
主要参考文章：
RNA-seq(3):sra到fastq格式转换并进行质量控制
 转录组入门（3）：了解fastq测序数据
 用FastQC检查二代测序原始数据的质量
 FastQC Tutorial & FAQ
从零开始完整学习全基因组测序（WGS）数据分析：第2节 FASTA和FASTQ

数据质控是一个综合的评价标准，其中主要指标为碱基质量与含量分布，如果这两个指标合格，后面大部分指标都可以通过；如果这两项不合格，其余都会受到影响。
其中一些指标并不适合所有数据，例如DNA测序数据与RNA测序数据之间的差异等，要根据具体数据类型具体分析。

FASTA的介绍
我们接触到的序列信息有FASTA和FASTQ两种格式，这是存储核苷酸序列信息（DNA序列）或者蛋白质序列信息最常使用的两种纯文本文件。
FASTA存的都是已经排列好的序列（如参考序列），起源于一款“FASTA”的比对软件，之后便以FASTA作为这种存储有顺序的序列数据的文件后缀，文件后缀除了.fasta之外，也常用.fa或者.fa.gz（gz压缩），包括常用的参考基因组序列、蛋白质序列、编码DNA序列（coding DNA sequence，简称CDS）、转录本序列等文件。
FASTA文件主要由两个部分构成：序列头信息（有时包括一些其它的描述信息）和具体的序列数据。序列头信息独占一行，以大于号（>）开头作为识别标记，其中除了记录该条序列的名字之外，有时候还会接上其它的信息。紧接的下一行是具体的序列内容，直到另一行碰到另一个大于号（>）开头的新序列或者文件末尾。

>gene_00284728 length=231;type=dna
GAGAACTGATTCTGTTACCGCAGGGCATTCGGATGTGCTAAGGTAGTAATCCATTATAAGTAACATG
CGCGGAATATCCGGGAGGTCATAGTCGTAATGCATAATTATTCCCTCCCTCAGAAGGACTCCCTTGC
GAGACGCCAATACCAAAGACTTTCGTAAGCTGGAACGATTGGACGGCCCAACCGGGGGGAGTCGGCT
ATACGTCTGATTGCTACGCCTGGACTTCTCTT

FASTQ的介绍
FASTQ存的则是产生自测序仪的原始测序数据，它由测序的图像数据转换过来，也是文本文件，文件大小依照不同的测序量（或测序深度）而有很大差异，小的可能只有几M，大的则常常有几十G上百G，文件后缀通常都是.fastq，.fq或者.fq.gz（gz压缩）。
FASTQ有独特的格式：每四行成为一个独立的单元，我们称之为read。具体的格式描述如下：
第一行：以‘@’开头，是这一条read的名字，这个字符串是根据测序时的状态信息转换过来的，中间不会有空格，它是每一条read的唯一标识符，同一份FASTQ文件中不会重复出现，甚至不同的FASTQ文件里也不会有重复；
第二行：测序read的序列，由A