文章目录
学习目标
- 探索RNA-seq计数数据的特征
- 评估RNA-seq计数数据中的均值-方差关系
- 了解生物学重复的重要性
探索RNA-seq计数数据
计数矩阵(Count matrix)
当我们开始差异基因表达分析时,我们首先得到一个矩阵,该矩阵汇总了数据集中每个样本中的基因水平的表达。矩阵中的行对应于基因,列对应于样本。在矩阵的每个位置,将有一个整数值,该整数值表示源自样本中特定基因的序列读段(reads)总数。
通常来说,计数(counts)越高,表明与该基因相关的读段越多,表明该基因的表达水平越高。但是,这不一定是正确的,我们将在本课程和本课程的后面部分对此进行深入研究。
RNA-seq计数矩阵的特征描述
为了了解RNA-seq计数的分布方式,让我们绘制一个样本“ Mov10_oe_1”的计数直方图:
ggplot(data,aes(Mov10_oe_1))+
geom_histogram(stat = 'bin', bins = 200)+
xlab('Raw expression counts')+
ylab('Number of genes')
该图说明了RNA-seq计数矩阵的一些常见特征:
- 很小的计数对应有大量的基因
- 由于没有表达上限,右尾较长
- 动态全距大
查看直方图的形状,我们看到它不是正态分布的。对于RNA-seq数据,情况总是如此。而且,正如我们之前观察到的,基础数据是整数计数而不是连续测量。在决定使用哪种统计模型时,我们需要考虑这些特征。
对计数数据进行建模
通常,计数数据可以使用各种分布来建模:
- 二项分布:可得到在抛硬币多次后获得多个正面的概率。基于离散事件,并在有一定数量案例的情况下使用。因此,它给出了从n个试验中得到r个事件的可能性。
- 泊松分布:在案例数非常多(即购买彩票的人)但事件发生的可能性很小(获胜的可能性)的情况下使用。泊松类似于二项分布,因为它也基于离散事件,但与来自无限样本的数据一起使用。因此,它给出了在总体中获得r个事件的概率。适用于均值(mean)==方差(variance)的数据。
那么,我们用于RNA-seq计数数据的是什么?
利用RNA-Seq数据,可以表示非常大量的RNA,而提取特定转录本的可能性非常小。这种情况与上述彩票最相似,这表明泊松分布也许是最合适的。但是,这将取决于我们数据中均值和方差之间的关系。
均数 vs 方差
要评估我们正在使用的数据的特征,我们可以使用与“ Mov10 overexpression”相对应的三个重复样本。首先计算平均值的向量,然后计算方差值的向量。然后将这些值相互绘制以评估它们之间的关系。
mean_counts <- apply(data[,6:<