一、常见二代测序数据分析流程
mRNA测序(mRNA-seq)已迅速成为分析疾病状态和生物过程的转录组以及在各种研究设计中分析转录组的首选方法。mRNA-Seq不仅是一种高度灵敏和准确的基因表达定量方法,还可以识别已知和新的转录异构体、基因融合等特征以及等位基因特异性表达,提供编码转录组的完整视图。RNA-Seq可以检测的种类有:mRNA、Small RNA、IncRNA、rRNA、viral RNA transcript等。
RNAseq的分析内容包括序列比对、转录本拼装、表达定量、差异分析、融合基因检测、可变剪接、RNA编辑和突变检测等,具体流程和常用工具如下图所示:
二、数据质控
2.1 数据常见问题
- 低质量:Trim or Remove
- Adapter序列:Trim or Remove
- 细菌污染:比对后remove
- Reads过短:remove
2.2 数据基本信息
- Encoding:数据质量体系,旧版本Illumina 1.5,新的为Sanger体系;旧的需转换至新的体系。
- Total Sequences:总的reads数。
- Sequence Length:序列长度,分固定长度。
- %GC:GC含量。
2.3 数据质量
- Per base sequence quality:单个碱基质量箱线图(上四分位,中位数,下四分位,横坐标为碱基位置,纵坐标为质量,一般至少20以上才合格);
- Per Tile sequencing quality:冷色调为高质量,暖色调为低质量,好的测序一般都为蓝色;
- Per Sequence Quality Scores:序列质量平均值分配,横坐标为质量值,纵坐标为reads数目,一般最右侧有一个峰值。
- Sequence Duplication
含义:完全相同的reads
产生原因:基因组中的重复序列;不同细胞中的多套DNA;PCR扩增。
正常duplication比例为4%左右,RNA-seq偏高,主要由于rRNA,表达量高的看家基因等;
过高原因:过多PCR扩增(6轮64个拷贝),主要包括过少DNA、大片段文库;片段长度差异太大,短片段重复多; - 序列是否有污染
污染种类:实验中添加试剂(adapter或primer);外源污染(人或细菌)。
G/C含量图:正常一般为规则的正态分布平滑曲线,30-50%。
Duplication level:个别重复数意外较多。
Overrepresented sequences:某种序列格外多,证明有污染。
Adapter Content:是否有adapter污染。
kmer content:序列打断后,某种序列是否很多。
Adapter 和 primer污染:过滤环节直接去除;
细菌污染:与其他基因组比对,确定是否有污染,若有,去除污染数据。
2.4 数据质控软件
- Trimmomatic:java不需要安装,低质量trim,保留更多数据,自带adapter库1。
- cutadapt: 是一款在允许一定容错率的情况下对高通量测序的数据进行识别/剪切/去除adapters,primers ,poly_A等序列的软件2,较适用于Illumina测序数据。
- Fastp: 速度上比Trimmomatic快3倍左右,使用C++开发和高效算法,而且完美支持多线程3。
三、比对
3.1 有参比对
读段定位到基因组或转录组序列上,根据基因注释,直接计算每个基因的表达水平。基于参考序列进行组装,确定每个转录本的序列,再计算组装后的基因的表达水平。
由于测序的cDNA来自RNA,可能跨越外显子边界,因此与参考基因组(包含内含子和外显子)比对时需要进行剪接比对,即允许reads中出现大片段gap。
3.2 无参比对
如果没有可用的包含已知外显子边界的高质量基因组注释,或者如果希望将reads与转录本相关联,则需要在比对后执行转录组组装步骤。诸如StringTie和SOAPdenovo-Trans之类的组装工具使用比对reads的gap来推测外显子边界和可能的剪接位点。转录本重头组装特别适用于参考基因组注释缺失或不完整的物种,或者对异常转录本感兴趣的研究。
3.3 比对软件
- tophat2:应用最广泛的比对软件,但是速度很慢,已经基本被淘汰了,调用了bowtie,最大的问题是处理不好假基因的问题。大约需要4~5G内存就能运行;(大致运行时间:1170min)
- hisat2:tophat2的原班人马搞得新一代转录组比对软件,比对速度大大提高,大约需要4~5G内存就能运行,相比于hisat,最大的进步在于考虑了SNP的信息;(大致运行时间:23min)
- STAR:非常适合于大量数据的并行计算,速度非常快,对于同时有参考基因组和参考转录组的物种,比对的