哈佛大学——差异表达分析(四)RNA-seq 计数分布

学习目标

  1. 探索RNA-seq计数数据的特征
  2. 评估RNA-seq计数数据中的均值-方差关系
  3. 了解生物学重复的重要性

探索RNA-seq计数数据

计数矩阵(Count matrix)

当我们开始差异基因表达分析时,我们首先得到一个矩阵,该矩阵汇总了数据集中每个样本中的基因水平的表达。矩阵中的行对应于基因,列对应于样本。在矩阵的每个位置,将有一个整数值,该整数值表示源自样本中特定基因的序列读段(reads)总数。
在这里插入图片描述
通常来说,计数(counts)越高,表明与该基因相关的读段越多,表明该基因的表达水平越高。但是,这不一定是正确的,我们将在本课程和本课程的后面部分对此进行深入研究。

RNA-seq计数矩阵的特征描述

为了了解RNA-seq计数的分布方式,让我们绘制一个样本“ Mov10_oe_1”的计数直方图:

ggplot(data,aes(Mov10_oe_1))+
  geom_histogram(stat = 'bin', bins = 200)+
  xlab('Raw expression counts')+
  ylab('Number of genes') 

在这里插入图片描述

该图说明了RNA-seq计数矩阵的一些常见特征:

  • 很小的计数对应有大量的基因
  • 由于没有表达上限,右尾较长
  • 动态全距大

查看直方图的形状,我们看到它不是正态分布的。对于RNA-seq数据,情况总是如此。而且,正如我们之前观察到的,基础数据是整数计数而不是连续测量。在决定使用哪种统计模型时,我们需要考虑这些特征。

对计数数据进行建模

通常,计数数据可以使用各种分布来建模:

  1. 二项分布:可得到在抛硬币多次后获得多个正面的概率。基于离散事件,并在有一定数量案例的情况下使用。因此,它给出了从n个试验中得到r个事件的可能性。
  2. 泊松分布在案例数非常多(即购买彩票的人)但事件发生的可能性很小(获胜的可能性)的情况下使用。泊松类似于二项分布,因为它也基于离散事件,但与来自无限样本的数据一起使用。因此,它给出了在总体中获得r个事件的概率。适用于均值(mean)==方差(variance)的数据。

那么,我们用于RNA-seq计数数据的是什么?
利用RNA-Seq数据,可以表示非常大量的RNA,而提取特定转录本的可能性非常小。这种情况与上述彩票最相似,这表明泊松分布也许是最合适的。但是,这将取决于我们数据中均值和方差之间的关系

均数 vs 方差

要评估我们正在使用的数据的特征,我们可以使用与“ Mov10 overexpression”相对应的三个重复样本。首先计算平均值的向量,然后计算方差值的向量。然后将这些值相互绘制以评估它们之间的关系。

mean_counts <- apply(data[,6
  • 6
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值