哈佛大学——差异表达分析(八)假设检验和多重检验校正

本文介绍了在DESeq2中进行差异表达分析的过程,包括广义线性模型(GLM)的使用、Wald检验和似然比检验(LRT)的比较,以及多重检验校正的重要性和常用方法,如Bonferroni、FDR和q值。通过对RNA-seq数据的分析,强调了在生物信息学研究中控制假阳性率的关键性。
摘要由CSDN通过智能技术生成

学习目标

  1. 描述模型拟合过程
  2. 比较两种假设检验方法(Wald检验与LRT检验)
  3. 解释对多重检验(multiple testing)的需要,并介绍不同的方法

DESeq2:模型拟合和假设检验

DESeq2工作流程的最后一步是对每个基因进行计数,并将其匹配到模型中,检验差异表达。
在这里插入图片描述

广义线性模型(Generalized Linear Model)

如前所述,由RNA-seq生成的计数数据表现出过分散性(方差>平均值),用于对计数建模的统计分布需要考虑到这一点。因此,DESeq2使用负二项分布对RNA-seq计数建模,使用下面的方程:
在这里插入图片描述
所需的两个参数是尺寸因子(size factor)离差估计(dispersion estimate)。然后使用NB家族的广义线性模型(GLM)拟合数据。建模是一种数学上形式化的方法,用来在给定一组参数的情况下近似数据的行为。

在统计学中,广义线性模型(GLM)是对普通线性回归的一种灵活的推广,它允许响应变量具有误差分布模型而不是正态分布。GLM对线性回归进行了一般化,允许线性模型通过链接函数与响应变量相关,并允许每次测量的方差大小是其预测值的函数。”(维基百科)

模型拟合后,对各样本组的系数及其标准误进行估计。系数是log2倍数变化(fold change) 的估计数,并将作为假设检验的输入。

假设检验

假设检验的第一步是为每个基因建立一个零假设。在我们的例子中,零假设是两个样本组之间没有差异表达(LFC == 0)。注意,我们可以在不观察任何数据的情况下做到这一点,因为它是基于思想实验的。其次,我们使用统计检验来确定根据观察到的数据,推断零假设是否是正确的。

Wald 检验

在DESeq2中,Wald检验是比较两组时假设检验的默认方法。Wald检验是一种参数检验,这些参数是由最大似然法估计的。在案例中,我们测试了每个基因模型系数(LFC),它是由如分散这样的参数派生的,这些参数是用最大似然估计的。
DESeq2通过以下方式实现Wald检验:

  • 用LFC除以它的标准误,得到z统计量
  • 将z统计量与标准正态分布进行比较,然后计算一个p值,以报告至少与观察值一样极端的z统计量被随机选择的概率
  • 如果p值很小,我们拒绝原假设,并声明存在反对原假设的证据(即基因表达差异)。

模型拟合和Wald检验在之前已经作为DESeq()函数的一部分运行:

## DO NOT RUN THIS CODE

## Create DESeq2Dataset object
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值