edgeR提供的TMM归一化算法详解

本文详细介绍了edgeR的TMM归一化算法,用于解决RNA-seq数据中因测序量和RNA组成差异导致的无法直接比较的问题。通过选择参照样本和考虑共有的RNA,TMM算法在消除测序量影响的同时,确保样本间表达量无差异的基因参与归一化过程。
摘要由CSDN通过智能技术生成

欢迎关注”生信修炼手册”!

我们都知道raw count的定量方式,是无法直接在样本间进行比较的。所以差异分析时,都会对原始的表达量数据进行归一化。

在之前的文章中,我们介绍了DESeq2提供的归一化算法,本章介绍下edgeR的TMM归一化算法。

造成raw count无法直接比较的因素有很多,最常见的有以下两个因素
1.测序量
2.RNA的组成

测序量对count的影响很好理解,测序的数据量越大,对应的reads也就越多。RNA的组成是如何影响表达量的呢?

由于RNA的组织特异性,时间特异性等因素,我们无法保证两个样本中表达的RNA的种类和数量完全相同。假设两个样本A和B, B中的RNA的种类是A的两倍,共有的RNA表达量相同,在相同测序量的情况下,共有的RNA在A中的表达量会是B中的两倍,由此可见,不同样本RNA的构成也会对检测到的RNA表达量造成影响。

归一化时,通常的做法是只考虑样本间相同的RNA, 在此基础上,再消除测序量的影响。

DESeq2的归一化算法只考虑在所有样本中表达量都大于零的基因,也是出于相同RNA构成的考虑。edgeR采取了参照样本的策略,首先从所有样本中挑选一个样本作为参照,在对其他样本进行归一化时,只考虑哪些在参照样本和待归一化的样本间共有的RNA。

选取参照样本的代码如下

y   <- t(t(data)/lib.size)
f75 <- apply(y,2,function(x) quantile(x,p=p0.75))
refColumn <- which.min(abs(
  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值