哈佛大学——差异表达分析（四）RNA-seq 计数分布

最新推荐文章于 2024-07-28 11:13:28 发布

零级伪码农

最新推荐文章于 2024-07-28 11:13:28 发布

阅读量5.8k

点赞数 6

分类专栏：笔记 RNA-seq 文章标签：生物信息学 r语言数据分析

本文链接：https://blog.csdn.net/weixin_46585008/article/details/109472944

版权

本文探讨了RNA-seq计数数据的特性，包括计数矩阵、分布特征、建模方法，如泊松分布和负二项分布。通过分析均值与方差的关系，揭示了负二项分布更适合RNA-seq数据。此外，强调了生物学重复在减少变异和提高差异表达分析可靠性中的重要性。

摘要由CSDN通过智能技术生成

学习目标

探索RNA-seq计数数据的特征
评估RNA-seq计数数据中的均值-方差关系
了解生物学重复的重要性

探索RNA-seq计数数据

计数矩阵（Count matrix）

当我们开始差异基因表达分析时，我们首先得到一个矩阵，该矩阵汇总了数据集中每个样本中的基因水平的表达。矩阵中的行对应于基因，列对应于样本。在矩阵的每个位置，将有一个整数值，该整数值表示源自样本中特定基因的序列读段(reads)总数。
在这里插入图片描述
通常来说，计数(counts)越高，表明与该基因相关的读段越多，表明该基因的表达水平越高。但是，这不一定是正确的，我们将在本课程和本课程的后面部分对此进行深入研究。

RNA-seq计数矩阵的特征描述

为了了解RNA-seq计数的分布方式，让我们绘制一个样本“ Mov10_oe_1”的计数直方图：

ggplot(data,aes(Mov10_oe_1))+
  geom_histogram(stat = 'bin', bins = 200)+
  xlab('Raw expression counts')+
  ylab('Number of genes')

在这里插入图片描述

该图说明了RNA-seq计数矩阵的一些常见特征：

很小的计数对应有大量的基因
由于没有表达上限，右尾较长
动态全距大

查看直方图的形状，我们看到它不是正态分布的。对于RNA-seq数据，情况总是如此。而且，正如我们之前观察到的，基础数据是整数计数而不是连续测量。在决定使用哪种统计模型时，我们需要考虑这些特征。

对计数数据进行建模

通常，计数数据可以使用各种分布来建模：

二项分布：可得到在抛硬币多次后获得多个正面的概率。基于离散事件，并在有一定数量案例的情况下使用。因此，它给出了从n个试验中得到r个事件的可能性。
泊松分布：在案例数非常多（即购买彩票的人）但事件发生的可能性很小（获胜的可能性）的情况下使用。泊松类似于二项分布，因为它也基于离散事件，但与来自无限样本的数据一起使用。因此，它给出了在总体中获得r个事件的概率。适用于均值(mean)==方差(variance)的数据。

那么，我们用于RNA-seq计数数据的是什么？
利用RNA-Seq数据，可以表示非常大量的RNA，而提取特定转录本的可能性非常小。这种情况与上述彩票最相似，这表明泊松分布也许是最合适的。但是，这将取决于我们数据中均值和方差之间的关系。