哈佛大学——差异表达分析（八）假设检验和多重检验校正

最新推荐文章于 2022-08-25 14:52:46 发布

零级伪码农

最新推荐文章于 2022-08-25 14:52:46 发布

阅读量6.2k

点赞数 4

分类专栏： RNA-seq 笔记文章标签：生物信息学 r语言数据分析

本文链接：https://blog.csdn.net/weixin_46585008/article/details/109499743

版权

本文介绍了在DESeq2中进行差异表达分析的过程，包括广义线性模型（GLM）的使用、Wald检验和似然比检验（LRT）的比较，以及多重检验校正的重要性和常用方法，如Bonferroni、FDR和q值。通过对RNA-seq数据的分析，强调了在生物信息学研究中控制假阳性率的关键性。

摘要由CSDN通过智能技术生成

学习目标

描述模型拟合过程
比较两种假设检验方法(Wald检验与LRT检验)
解释对多重检验（multiple testing）的需要，并介绍不同的方法

DESeq2:模型拟合和假设检验

DESeq2工作流程的最后一步是对每个基因进行计数，并将其匹配到模型中，检验差异表达。
在这里插入图片描述

广义线性模型（Generalized Linear Model）

如前所述，由RNA-seq生成的计数数据表现出过分散性(方差>平均值)，用于对计数建模的统计分布需要考虑到这一点。因此，DESeq2使用负二项分布对RNA-seq计数建模，使用下面的方程:
在这里插入图片描述
所需的两个参数是尺寸因子（size factor）和离差估计(dispersion estimate)。然后使用NB家族的广义线性模型(GLM)拟合数据。建模是一种数学上形式化的方法，用来在给定一组参数的情况下近似数据的行为。

在统计学中，广义线性模型(GLM)是对普通线性回归的一种灵活的推广，它允许响应变量具有误差分布模型而不是正态分布。GLM对线性回归进行了一般化，允许线性模型通过链接函数与响应变量相关，并允许每次测量的方差大小是其预测值的函数。”(维基百科)。

模型拟合后，对各样本组的系数及其标准误进行估计。系数是log2倍数变化（fold change） 的估计数，并将作为假设检验的输入。

假设检验

假设检验的第一步是为每个基因建立一个零假设。在我们的例子中，零假设是两个样本组之间没有差异表达(LFC == 0)。注意，我们可以在不观察任何数据的情况下做到这一点，因为它是基于思想实验的。其次，我们使用统计检验来确定根据观察到的数据，推断零假设是否是正确的。

Wald 检验

在DESeq2中，Wald检验是比较两组时假设检验的默认方法。Wald检验是一种参数检验，这些参数是由最大似然法估计的。在案例中，我们测试了每个基因模型系数(LFC)，它是由如分散这样的参数派生的，这些参数是用最大似然估计的。
DESeq2通过以下方式实现Wald检验:

用LFC除以它的标准误，得到z统计量
将z统计量与标准正态分布进行比较，然后计算一个p值，以报告至少与观察值一样极端的z统计量被随机选择的概率
如果p值很小，我们拒绝原假设，并声明存在反对原假设的证据(即基因表达差异)。

模型拟合和Wald检验在之前已经作为DESeq()函数的一部分运行:

## DO NOT RUN THIS CODE

## Create DESeq2Dataset object

最低0.47元/天解锁文章

零级伪码农

关注

4
点赞
踩
15

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录