详解CPM定量方式

最新推荐文章于 2022-04-16 11:19:57 发布

生信修炼手册

最新推荐文章于 2022-04-16 11:19:57 发布

阅读量1w

点赞数 3

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43569478/article/details/108079260

版权

欢迎关注”生信修炼手册”!

在edgeR中，提供了一种名为CPM的定量方式，全称为count-per-millon。
假定原始的表达量矩阵为count, 计算CPM的代码如下

cpm <- apply(count ,2, function(x) { x/sum(x)*1000000 })

原始的表达量除以该样本表达量的总和，在乘以一百万就得到了CPM值。从公式可以看出， CPM其实就是相对丰度，只不过考虑到测序的reads总量很多，所以总的reads数目以百万为单位。

在前面的文章中我们介绍了edgeR提供的TMM归一化算法，CPM这种求相对丰度的思想，虽然也是一种比较简单的归一化方式，但它并不用于差异分析之前的归一化。

在edgeR中，CPM主要有以下两种用途

1. 过滤表达量较低的基因

DESeq2和edgeR都是针对raw count表达量进行分析，在DESeq2中，在过滤低表达量的基因时，直接是根据reads数的总和进行判断，代码如下

countData <- count[apply(count, 1, sum) > 10 , ]

由于不同样本测序的reads总数不同，所以直接将所有样本的reads相加，然后进行过滤，这种方式略显粗糙。edgeR中，利用CPM的定量结果，对低表达量的基因进行过滤，代码如下

countData <- count[apply(cpm(count), 1, sum) > 2 , ]

利用相对丰度的加和进行过滤，消除了样本间reads总数不同的影响。需要注意的是，我们只是用CPM来过滤基因，而后续分析还是基于raw count的结果，因为只有raw count是基于负二项分布的。

2. 差异分析的MA图

MA图是差异分析常用的可视化手段之一，横坐标为基因在两组样本中的均值，纵坐标为Fold change, 就是两组表达量的倍数。edgeR中的plotMD函数可以绘制如下所示的MA图

从x轴的标签可以看出来，采用的是CPM值。由于不同基因CPM值差异很大，所以采用log转换，缩小了不同基因之间的差异。

·end·

—如果喜欢，快分享给你的朋友们吧—

扫描关注微信号，更多精彩内容等着你！

生信修炼手册

关注

3
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
详解CPM定量方式

欢迎关注”生信修炼手册”!在edgeR中，提供了一种名为CPM的定量方式，全称为count-per-millon。假定原始的表达量矩阵为count, 计算CPM的代码如下cpm <...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。