微生物数据统计分析简介
3.1 人类微生物研究的主题和假设
两大主题,分别是:1)微生物特征和基因的、生物的、临床的和实验条件;2)与微生物组成可能相关的生物和环境因子
目标:理解宿主遗传——环境因子的机制,在调节微生物组成和疾病方面,可能对治疗策略有所帮助。
环境、微生物和宿主的关系是动态和复杂的,有3个假说:
1)微生物失衡与健康或者疾病是否相关,如IBD
假说也可以是微生物和生物因子,比如微生态改变与小肠上皮细胞VDR(维生素D受体)相关
2)微生物-环境或者生物
或健康/疾病时环境干预影响微生物的组成和多样性,比如饮食干预、抗生素、益生菌和营养等。
3)宿主-环境
以医学常用的标准统计方法和模型检验
以假说1,2为主。A0假设:健康/疾病时微生物组成和不同实验组/遗传条件/环境无关
核心:环境/其他因素在微生物组成/丰富度的影响
不同课题在alpha多样性(样本内物种多样性)、丰富度、独特物种/OTUs数目、进化树和物种均匀度一一不同。
统计假说:1)alpha多样性--如抗生素研究,假设抗生素的使用会让多样性降低/不会升高。2)beta多样性--种株的Jaccard指数,UniFrac发育距离。株相同的微生物群落稳定,而抗生素治疗导致细菌株不同,更不稳定。
微生物研究中的经典统计方法和模型
经典统计检验
微生物分析中有许多经典的统计检验可用。一个假设检验是微生物分类可以用alpha和beta多样性指数来进行。这取决于数据是不是正态分布,实验组的数量或者实验条件,我们可以用t检验、ANOVA(方差分析)、或者相关非参数检验。
两样本的t检验和他们的对应的非参检验--wilcoxon秩和检验,广泛应用于两组连续变量的微生物研究。
3.2 多元统计工具
一个环境中的微生态可以用多元统计 工具进行分析,多数统计模型和方法是采纳自生态学研究领域和环境科学。
由于数据具有高维度、非正态和系统发育结构,很难使用OTUs和物种丰度,直接对微生物组成和可能的环境因子之间的关联进行检验。通常,多元分析首先需要选择一个衡量距离的方法,然后分析估计的距离,也就是两个微生物样本之间的距离尺度。
有几种组间差异检验的方法:PERMANOVA(置换多元方差分析),ANOSIM(相似性分析),MRPP(多响应置换过程),MANTEL(Mantel检验,对两个矩阵相关关系的检验
)。
1、PERMANOVA(置换多元方差分析)2001年提出,把强大的方差分析应用于生态数据,是应用最广泛的、基于距离矩阵的和转换的非参数多元模型方法,类似的还有MRPP。PERMANOVA通常用距离衡量方法的其中一个。例如一个PERMANOVA使用Unweighted UniFrac距离的分析来展现肠道微生物组成和杂食的人-素食主义者的差异,beta多样性的联系,人群微生物异质性和贝叶斯相异度矩阵。
2、ANOSIM是微生物研究中一个广泛应用的多元分析方法,它通过距离进行组内和组间相似性分析,来检验零(原)假设:组内样本之间的和组间样本间的平均秩次相似度。
在微生物学文献中,MRPP和加权UniFrac距离矩阵成对来确认聚类的显著性,检验影响微生态的因素和Bray-Curtis距离比较生态差异性。
类似相关分析,Mantel检验用于检验宿主微生态beta多样性和环境因子。例如,检验生态beta多样性的差异和宿主遗传,供体BMI和微生物组,甚至鉴别微生物级成的预测因子。