哈佛大学——差异表达分析（五）计数归一化

最新推荐文章于 2024-07-28 21:17:03 发布

零级伪码农

最新推荐文章于 2024-07-28 21:17:03 发布

阅读量8.8k

点赞数 7

分类专栏： RNA-seq 笔记文章标签： r语言生物信息学数据分析

本文链接：https://blog.csdn.net/weixin_46585008/article/details/109478030

版权

本文介绍了RNA-seq分析中DESeq2的计数归一化过程，包括归一化的必要性、常见方法如RPKM/FPKM的局限性，以及DESeq2采用的比率中位数方法。通过对 Mov10 数据集的实例，展示了如何使用DESeq2进行归一化计数，以确保样本间的基因表达比较的准确性。

摘要由CSDN通过智能技术生成

学习目标

探索不同类型的归一化方法
了解如何创建DESeqDataSet对象
了解如何使用DESeq2归一化计数(counts)

归一化(Normalization)

DE分析工作流程的第一步是计数归一化，这对于准确比较样品之间的基因表达是必需的。
在这里插入图片描述
除许多其他因素（“不感兴趣”部分）外，每个基因的映射读段计数(counts of mapped reads)是RNA表达（“感兴趣”部分）的结果。归一化是调整原始计数值以解决“不感兴趣”因素的过程。这样，表达水平在样品之间和/或之内更加可比。
归一化时经常考虑的主要“不感兴趣”因素是：

测序深度（Sequencing depth）：为了比较样品之间的基因表达，需要考虑测序深度。在下面的示例中，每个基因似乎在样品A中的表达是样品B的两倍。但这是样品A的测序深度加倍的结果。

测序深度，测序得到的碱基总量（bp）与基因组大小（Genome）的比值。
注意：在上图中，每个粉红色和绿色矩形代表与基因对齐的读段。用虚线连接的读段连接横跨内含子的读段。

基因长度（Gene length）：为了比较同一样品中不同基因之间的表达，必须考虑基因长度。在下面的示例中，基因X和基因Y具有相似的表达水平，但是映射到基因X的读段数将比映射到基因Y的读段数多得多，因为基因X更长。
RNA组成（RNA composition）：样品之间的一些高度差异表达的基因，样品之间表达的基因数量的差异或污染的存在可能会影响某些类型的标准化方法。建议对RNA组成进行核算，以准确比较样品之间的表达，这在进行差异表达分析时尤为重要。[1]
在下面的示例中，假设样品A和样品B之间的测序深度相似，并且除基因DE外的每个基因在样品之间的表达水平都相似。样品B中的计数会因DE基因而大大偏离，DE基因占据了大部分计数。因此，样品B的其他基因似乎比样品A中的那些相同基因表达少。

归一化对于差异表达分析至关重要，同时对于探索性数据分析，数据可视化以及每当探索或比较样品之间或样品内部的计数时，归一化仍是必不可少的。

常见归一化方法

已开发出几种常见的归一化方法来解释这些差异：

归一化方法	描述	解释因素	推荐用途
CPM (counts per million)	counts scaled by total number of reads	sequencing depth	同一样本组重复样本间的基因计数比较；不用于样本内比较或DE分析
TPM (transcripts per kilobase million)	counts per length of transcript (kb) per million reads mapped	sequencing depth and gene length	样本内或同一样本组样本间的基因计数比较；不用于DE分析
RPKM/FPKM (reads/fragments per kilobase of exon per million reads/fragments mapped)	similar to TPM	sequencing depth and gene length	样本内基因间的基因计数比较；不适用于样本间比较或DE分析
DESeq2’s median of ratios [1]	counts divided by sample-specific size factors determined by median ratio of gene counts relative to geometric mean per gene	sequencing depth and RNA composition	样品间的基因计数比较以及用于DE分析;不适用于样本内比较
EdgeR’s trimmed mean of M values (TMM) [2]	uses a weighted trimmed mean of the log expression ratios between samples	sequencing depth, RNA composition, and gene length	样品间和样品内的基因计数比较，用于DE分析

推荐阅读：
[1] RNA-Seq分析|RPKM, FPKM, TPM, 傻傻分不清楚?
[2] 学习：StatQuest-RPKM,FPKM,TPM和CPM

RPKM / FPKM：不建议用于样

最低0.47元/天解锁文章

零级伪码农

关注

7
点赞
踩
39

收藏

觉得还不错? 一键收藏
2
评论
哈佛大学——差异表达分析（五）计数归一化

文章目录学习目标归一化(Normalization)常见归一化方法学习目标探索不同类型的归一化方法了解如何创建DESeqDataSet对象了解如何使用DESeq2归一化计数(counts)归一化(Normalization)DE分析工作流程的第一步是计数归一化，这对于准确比较样品之间的基因表达是必需的。除许多其他因素（“不感兴趣”部分）外，每个基因的映射读段计数(counts of mapped reads)是RNA表达（“感兴趣”部分）的结果。归一化是调整原始计数值以解决“不感兴趣”因
复制链接

扫一扫