R语言宏基因组学统计分析学习笔记（第三章-2）

本文链接：https://blog.csdn.net/zd200572/article/details/109784978

3.23 过度分散和零扁平模型

微生物组的物种分类数据，比如扩增子测序的微生物物种读数或者OTU数或者转录组的不同表达量的数据，是稀疏和有太多0的。在宏基因组计数数据中，特定基因的大幅变化和过度分散经常发生，影响不同丰度的基因。由于各种因素，过多的0在宏基因组数据中也经常出现，比如，基因的丰度由于生物医学的技术限制不能检测到。样本的0也可能由于细菌群落间大的多样性而发生。
为了适应微生物组数据的这两个特征，我们通常使用
(negative binamial and zero flated)负二项零扁平模型。一个NB模型用于获得序列标签差异性，来探知临床宏基因组样本中不同丰度的特征。
人肠道中不同细菌的丰度特征是分类级别越低，0越多向右偏。为了捕捉过多0的特征和对偏的微生物数据建模，需要一个模型，比如（Zero-inflated Poission零膨胀泊松)ZIP，（Zero-inflated Negative binominal反膨胀负二项式)ZINB或者跨栏模型。微生物研究中使用零膨胀模型的合适度由广泛的模拟和真实数据获得。
为了发现环境或生物协变量和不同的细菌分类（分散多0数据），夏等应用了一个加性Logistic正态多项式回归模型，来把协变量和细菌组成（数量）相关联，也应用这个模型分析了饮食和粪便微生物组成之间的关联。

3.3 新开发的多元统计方法

3.3.1 狄利克雷多项分布模型

在概率参数模型中，多项分布和狄利克雷多项分布模型是最流行的。基于狄利克雷多项分布混合模型，对人微生物组数据的假设检验和分类学中的功效计算,最终提出了一个多元统计方法。作者重新参数化了狄利克雷多项分布模型，形成了狄利克雷多项分布混合模型，来让它适合组间的假设检验，基于不同的位置（均值比较）和尺度（差异比较/离散化）。已经在R包HMP实施，使用人类微生物组计划iHMP的数据。它的效能计算能力对研究者和统计学家是有吸引力的，当他们在设计微生物级研究和准备批准申请时。

3.3.2 UniFrac距离家族

为了比较微生态，多元分析首先需要选择一个距离计算方法。数不清的方法被提出，其中，进化发生距离，解释了分类群之间的系统发育关系，是非常强大的工具箱，因为它利用了不同序列之间的差异程度。
为了在计算微生物群落之间的差异时捕捉系统发育信息，Lozupone和Knight在2005年提出了UniFrac距离度量。UniFrac距离系统发育树中分类群之间的系统发育距离。UniFrac距离度量的目标是能够对不同条件下的微生物样本之间进行客观比较。2007年，Lozupone等人提出。向原始UniFrac添加了比例权重，并将其区分为未加权的UniFrac和加权的UniFrac。从那时起，UniFrac的两个版本就出现在微生物组文献中，并已被应用于数千种研究出版物，几乎涵盖了从人类疾病到一般生态学的方方面面。N加权UniFrac距离只考虑物种的存在和缺失信息，计算每个群落特有的分枝长度比例；加权UniFrac距离利用物种丰度信息，根据丰度差异对分枝长度进行加权。

这两个UniFrac距离已经成为使用最广泛的系统发育距离度量。然而，它们也有局限性：评估结果给稀有谱系(未加权的UniFrac距离)或最丰富的谱系(加权的UniFrac距离)赋予了太多的权重，因此，在检测适度丰富的谱系的变化方面可能不是很强大。基于方差调整的加权UniFrac距离(VAWUniFrac)(Chang等人。2011)，开发了扩展加权和未加权UniFrac距离的广义UniFrac距离，用于检测微生物组组成中更大范围的生物相关变化。现在，UniFrac工具箱系列已经从UniFrac距离扩展到广义UniFrac距离。通过分析两个真实的人类肠道微生物组数据集，证明了广义UniFrac距离在检测微生物组差异方面的作用，这些数据集与人类肠道微生物组组成和长期饮食有关(Wu等人。2011年)，并测试吸烟者和不吸烟者之间的上呼吸道微生物群差异(Charlson等人。2010)使用PERMANOVA。广义UniFrac距离法通过对UniFrac距离和PERMANOVA进行无关性评价，提供了一种检验微生物群落组成与环境协变量之间关系的统计方法。
UniFrac工具箱中增加了两个新开发的UniFrac工具：Micropower R 包(Kelly等人2015年)和UniFrac R程序(Wong等人2016年)。中，Kelly等人。Micropower R 包将未加权和加权UniFrac距离的度量纳入成对距离的分析中，并将PERMANOVA用于效能和样本大小估计。在成分数据分析的背景下，Wong et al.引入了两个新的权重：信息(Information UniFrac)和比率(Ratio UniFrac)，它们对稀疏性不那么敏感，并且允许比经典的未加权和加权UniFrac更好地分离异常值。其目标是解决未加权UniFrac对稀疏实例高度敏感的局限性，以及在没有清晰结构或组间分离的统一数据集中对测序深度的抽平。

3.3.3 多元贝叶斯模型

Grantham等人。提出了一种贝叶斯混合效应模型，称为MIMIX(微生物群混合模型)，用于联合而不是单独地分析微生物分类群。MIMIX的功能包括：对微生物群组成的实验性处理效果全局测试，局部测试和评估对单个分类群的处理效果；量化分析微生物群的异质性，以及表征微生物群中的潜在结构。MIMIX是基于Logistic正态多项式(LNM)的混合效应模型(Xia et al.。(2013年)。作为贝叶斯模型，MIMIX使用贝叶斯因子分析(Rowe 2003)来捕捉微生物分类群之间的复杂依赖模式，并使用连续收敛的Dirichlet-Laplace先验(Bhattacharya等人)。2015年)识别对实验条件反应相似的微生物群(Grantham等人。2017年)。
该模型的作者认为，在模拟研究和真实数据中，MIMIX在检测显著信号的存在和估计稀疏处理效果方面优于Bray-Curtis不同的PERMANOVA(Grantham等人。2017年)。然而，还需要更多的研究来证实这一模型的性能。
类似于Grantham等人联合模拟微生物类群丰度的方法，Ren等人。提出了一个贝叶斯广义混合效应回归模型来解释微生物类群之间的相关性，并允许跨类群借用信息。以前的多元方法要么假设多元Logistic正态分布(Xia等人，2013年；Grantham等人。2017)或独立的Dirichlet分布。Ren等人提出的贝叶斯非参数模型的区别。在于：(1)在调整低维空间的同时，使用边际Dirichlet过程先验和潜在因素的收缩先验将微生物组成和协变量联系起来(Ren等2017a；Udell和Townsen2017)，以及(2)评估协变量和微生物组成之间的关联。
多元贝叶斯图形组成回归
在第二章，我们描述了微生物组组成数据具有以下特点：(A)高维；(B)稀疏多零；©复杂的协方差结构；(D)过度分散。为了针对群体内大量的异质基因和潜在的混杂基因，毛等人进行了研究。提出了一种针对组成微生物组数据的贝叶斯图形回归方法(MAO等人。2017)，基于Dirichlet树多项式(DTM)模型。
与Dirichlet-Polyomial(DM)分布相似，该方法使用DM并结合系统发育信息，但直接使用系统发育树作为推理工具。该方法在贝叶斯测试框架下结合了DTM分布(Dennis 1991；Wang和赵2017)和图形模型。DTM将传统的DM扩展到系统发育树上，并提供了更多的灵活性。此外，开发的贝叶斯图形测试侧重于通过调整协变量在贝叶斯图形成分回归(BGCR)框架下有效地比较组内差异。将BGCR方法与DTM方法进行比较(Tang et al.2018年)和DM测试(La Rosa等人)。2012a)，BGCR的性能优于其他方法(毛等人2017年)。
多元零膨胀模型的贝叶斯变量选择
联合建模多个分类单元比特定于分类单元的单变量分析更强大。然而，微生物组数据的多变量分析，特别是具有协变量的零膨胀微生物组数据的多变量分析是一个挑战。Lee等人。提出了一种用于多元零膨胀高维协变量数据的贝叶斯变量选择方法(Lee等人。2017年)。提出的多元零膨胀泊松(MZIP)分布模型不需要指定协方差结构，而是引入了贝叶斯变量选择。

3.3.4 系统发育套索与微生物群系

微生物组数据是高维的，往往具有很大的p和很小的n，这表明数据观测很少，分类群很多，分类群甚至比数据观测更多。在数据矩阵中，p指的是列数，n指的是行数；那么问题大p小n意味着小n个样本(数据观测)包含大的p个分类群。从图形上看，这意味着在p维空间中有n个样本。
从统计学上讲，对高维数据建模有很多挑战(Donoho 2000；Fan and Li 2006)。我们需要处理两个不排除的问题：解决大p和小n问题，以及处理变量问题。
通常，较大的p需要较大的n。为了有效地对具有较大p和较小n的高维微生物组数据进行建模，一种方法是充分降维，即降低预测因子的维度，直到预测因子和响应之间的回归关系仍然保持。在微生物组研究中，协变量之间也是相互关联的，这给变量的选择带来了更多的挑战。因此，需要进行充分的变量选择。
为了解决大p，小n的问题，人们提出了许多方法来降低预测因子的维数(Yen和Hilafu，2015)，以及变量的选择。在变量选择方法中，几种基于模型的惩罚方法非常有用(Yen和Hilafu，2015)，包括套索方法。
“生命树”，即与系统发育相关的不同分类级别的细菌群，增加了高维数据结构的复杂性。Kim和他的团队通过系统发育Lasso(最小绝对收缩和选择算子)技术将微生物群组合并为一个协变量，以响应生物学或临床结果。
与其他变量选择方法类似，他们的变量选择方法也结合了生命树模式。
Kim等人开发的系统发育套索，有一个分级惩罚方案和一个可行的协变量分组方式。例如，根据分组是否嵌套，分别以图形方式表示树或循环。此外，系统发育套索使用凸对数似然函数(Rush等人。2016)，不同于分级H-Lasso，后者使用惩罚最小二乘。系统发育套索估计的算法依赖于迭代自适应重新加权。系统发育套索可以用来选择OTUS、类群或任何其他“组学”数据作为协变量，然后用Logistic回归对响应进行建模，例如这些协变量是否可以预测粪便微生物区系移植(FMT)。

Kim等人。将系统发育套索模型与SCAD(平滑剪裁绝对偏差)模型(谢和黄，2009)以及甲骨文模型的普通最小二乘法(OLS)进行比较，他们得出结论：基于一项实际临床研究，系统发育套索模型优于SCAD和OLS模型。