文章目录
学习目标
- 描述模型拟合过程
- 比较两种假设检验方法(Wald检验与LRT检验)
- 解释对多重检验(multiple testing)的需要,并介绍不同的方法
DESeq2:模型拟合和假设检验
DESeq2工作流程的最后一步是对每个基因进行计数,并将其匹配到模型中,检验差异表达。
广义线性模型(Generalized Linear Model)
如前所述,由RNA-seq生成的计数数据表现出过分散性(方差>平均值),用于对计数建模的统计分布需要考虑到这一点。因此,DESeq2使用负二项分布对RNA-seq计数建模,使用下面的方程:
所需的两个参数是尺寸因子(size factor)和离差估计(dispersion estimate)。然后使用NB家族的广义线性模型(GLM)拟合数据。建模是一种数学上形式化的方法,用来在给定一组参数的情况下近似数据的行为。
在统计学中,广义线性模型(GLM)是对普通线性回归的一种灵活的推广,它允许响应变量具有误差分布模型而不是正态分布。GLM对线性回归进行了一般化,允许线性模型通过链接函数与响应变量相关,并允许每次测量的方差大小是其预测值的函数。”(维基百科)。
模型拟合后,对各样本组的系数及其标准误进行估计。系数是log2倍数变化(fold change) 的估计数,并将作为假设检验的输入。
假设检验
假设检验的第一步是为每个基因建立一个零假设。在我们的例子中,零假设是两个样本组之间没有差异表达(LFC == 0)。注意,我们可以在不观察任何数据的情况下做到这一点,因为它是基于思想实验的。其次,我们使用统计检验来确定根据观察到的数据,推断零假设是否是正确的。
Wald 检验
在DESeq2中,Wald检验是比较两组时假设检验的默认方法。Wald检验是一种参数检验,这些参数是由最大似然法估计的。在案例中,我们测试了每个基因模型系数(LFC),它是由如分散这样的参数派生的,这些参数是用最大似然估计的。
DESeq2通过以下方式实现Wald检验:
- 用LFC除以它的标准误,得到z统计量
- 将z统计量与标准正态分布进行比较,然后计算一个p值,以报告至少与观察值一样极端的z统计量被随机选择的概率
- 如果p值很小,我们拒绝原假设,并声明存在反对原假设的证据(即基因表达差异)。
模型拟合和Wald检验在之前已经作为DESeq()
函数的一部分运行:
## DO NOT RUN THIS CODE
## Create DESeq2Dataset object