文章目录
学习目标
- 探索不同类型的归一化方法
- 了解如何创建
DESeqDataSet
对象 - 了解如何使用DESeq2归一化计数(counts)
归一化(Normalization)
DE分析工作流程的第一步是计数归一化,这对于准确比较样品之间的基因表达是必需的。
除许多其他因素(“不感兴趣”部分)外,每个基因的映射读段计数(counts of mapped reads)是RNA表达(“感兴趣”部分)的结果。归一化是调整原始计数值以解决“不感兴趣”因素的过程。这样,表达水平在样品之间和/或之内更加可比。
归一化时经常考虑的主要“不感兴趣”因素是:
- 测序深度(Sequencing depth):为了比较样品之间的基因表达,需要考虑测序深度。在下面的示例中,每个基因似乎在样品A中的表达是样品B的两倍。但这是样品A的测序深度加倍的结果。
测序深度,测序得到的碱基总量(bp)与基因组大小(Genome)的比值。
注意:在上图中,每个粉红色和绿色矩形代表与基因对齐的读段。用虚线连接的读段连接横跨内含子的读段。
- 基因长度(Gene length):为了比较同一样品中不同基因之间的表达,必须考虑基因长度。在下面的示例中,基因X和基因Y具有相似的表达水平,但是映射到基因X的读段数将比映射到基因Y的读段数多得多,因为基因X更长。
- RNA组成(RNA composition):样品之间的一些高度差异表达的基因,样品之间表达的基因数量的差异或污染的存在可能会影响某些类型的标准化方法。建议对RNA组成进行核算,以准确比较样品之间的表达,这在进行差异表达分析时尤为重要。[1]
在下面的示例中,假设样品A和样品B之间的测序深度相似,并且除基因DE外的每个基因在样品之间的表达水平都相似。样品B中的计数会因DE基因而大大偏离,DE基因占据了大部分计数。因此,样品B的其他基因似乎比样品A中的那些相同基因表达少。
归一化对于差异表达分析至关重要,同时对于探索性数据分析,数据可视化以及每当探索或比较样品之间或样品内部的计数时,归一化仍是必不可少的。
常见归一化方法
已开发出几种常见的归一化方法来解释这些差异:
归一化方法 | 描述 | 解释因素 | 推荐用途 |
---|---|---|---|
CPM (counts per million) | counts scaled by total number of reads | sequencing depth | 同一样本组重复样本间的基因计数比较;不用于样本内比较或DE分析 |
TPM (transcripts per kilobase million) | counts per length of transcript (kb) per million reads mapped | sequencing depth and gene length | 样本内或同一样本组样本间的基因计数比较;不用于DE分析 |
RPKM/FPKM (reads/fragments per kilobase of exon per million reads/fragments mapped) | similar to TPM | sequencing depth and gene length | 样本内基因间的基因计数比较;不适用于样本间比较或DE分析 |
DESeq2’s median of ratios [1] | counts divided by sample-specific size factors determined by median ratio of gene counts relative to geometric mean per gene | sequencing depth and RNA composition | 样品间的基因计数比较以及用于DE分析;不适用于样本内比较 |
EdgeR’s trimmed mean of M values (TMM) [2] | uses a weighted trimmed mean of the log expression ratios between samples | sequencing depth, RNA composition, and gene length | 样品间和样品内的基因计数比较,用于DE分析 |
推荐阅读:
[1] RNA-Seq分析|RPKM, FPKM, TPM, 傻傻分不清楚?
[2] 学习:StatQuest-RPKM,FPKM,TPM和CPM