相关分析在微生物生态学中的应用与误用

摘要

生物信息学分析流程中常包含相关分析,用于推断分类单元之间的相互作用。我们重点强调了使用协方差分析和推荐方法分析相互作用的误区,研究了设计考量因素和改进高通量数据相互作用分析的其他数据类型。结论表明,即使有其他数据类型的支撑,在真实生态系统中,相关性几乎无法提供生物间直接相互作用的可靠信息。虽然生物信息学上的相关性能减少潜在假说的数量,但实验验证仍是必要的。

编译:王丹蕊

英文标题:

Use and abuse of correlation analyses in microbial ecology

中文标题:

相关分析在微生物生态学中的应用与误用

期刊:

The ISME Journal, 2019 

第一作者:

Alex Carr

通讯作者:

Sean M. Gibbons

作者单位:

Institute for Systems Biology, Seattle, WA, USA

Molecular Engineering Program, University of Washington,Seattle, WA, USA

前言

相关性是两个变量之间统计学相关关系的度量,可以预测变量间的相关关系,但不代表因果关系。许多研究者直接或间接地使用微生物群落数据的相关结构来推断潜在的相互作用,这些推论充满了挑战,虽然有用,但是受到很多限制。复杂的非线性动力学、测序数据的组成、环境异质性、潜在混杂因素、间接关联和批次效应都会影响物种间直接关联推断的有效性。将分析方法应用于数据时,需要仔细考虑这些方法所需的基本假设。有些方法虽然准确,但操作困难,费时费力;且实验室无法还原自然条件下相互作用发生的环境。因此需要不断发展推断相关性的生物信息学方法。虽然相互作用很难直接观察到,但微生物的类型和种群大小的相对波动可以量化,产生了许多根据高通量测序数据中的相对丰度信息预测相关性的方法。然而,得出的推论常常可能是不正确的。从这个角度出发,我们回顾了相关性计算方法在微生物生态学中的应用,评估了这些方法的优点和局限性,分析了相关分析的误区,讨论了提高推断准确性的改进方法。

理论考量

对称的相关性与非对称的相互作用

首先,相关矩阵反映的相互作用关系是对称的,而生态系统中的相互作用往往是非对称的。相互作用的方向难以推论,结合时空信息的分析方法也因采样和技术等原因不具理想的灵敏度和准确性。事实证明,互惠共生或竞争等强烈而对称的相互作用更容易检测到;而较弱的有向相互作用不易检测,例如寄生或偏害共栖。

动态模型和机械约束可以优化推论

理论上,微生物间相互作用的生化过程已知时,可以建立模型并利用数据进行测试。但这种方法面临巨大挑战,而且仅依靠分类单元的丰度信息是远远不够的。

Lotka-Volterra(LV)模型由非线性微分方程组成,描述了生长、死亡和物种间相互作用引起的物种丰度的时间变化。模型考虑了时间要素,因此既可以反映正相互作用,也可以反映负相互作用。在相互作用成对且可相加的前提下,也可以用来模拟任意数量的物种之间的特定方向的相互作用。经对数变换后,LV模型可以使用线性回归来拟合,在某些情况下可以为推断物种间的相互作用、预测群落动态提供一种有用的手段,但也有其局限性:样品必须反映群落的变化动态,也必须遵守前提。此外,理论和实证研究表明,LV模型不能准确地反映所有的相互作用,并且无法很好地预测现实环境的群落动态变化。

图1.仅凭相关性无法推断物种动态变化的驱动因素

如图1所示,捕食者和被捕食者的丰度随时间波动。如图.1a所示,随着被捕食者数量的增加,捕食者的数量也越来越多,大量捕杀导致被捕食者濒临灭绝。随后捕食者数量减少,被捕食者的数量恢复,就这样周而复始,捕食者和被捕食者的变化时而正相关,时而负相关。然而,如果捕食者和被捕食者的关系有时间滞后性,我们会发现两者始终存在正相关或负相关的滞后(图1b)。时滞相互作用可以用格兰杰因果检验评估,它评估一个变量对另一个变量的未来值的线性预测程度,并且可以提供直接关系。同样,传递熵是非参数的格兰杰因果检验的延伸,可以用来推断变量之间非线性、时间不对称的相关关系。虽然这些方法可得到物种间直接的因果关系,但并不能保证它们绝对准确。酸碱度、温度或其他潜在因素都可能间接驱动类似的时滞性种群动态变化。推断有向关联的另一种常用方法是扩展局部相似性分析,可推断时间关系和非线性关联。所有这些方法都适用于研究简单的捕食关系,但不适用于复杂的情况。

动力学潜在驱动因素的不利影响

物种间的相互作用并不是唯一的驱动因素,许多潜在因素(例如温度、营养物质等环境因素)会增加种群动态的复杂程度,导致对种间关系的不准确推断。Martin-Plantera等人最近将光谱分解方法应用于海洋微生物群落,以分辨物种种群动态中的不同频率。他们发现低频振荡将季节生态位相似的物种聚集在一起,反映了环境的作用;高频振荡揭示了相关物种之间的负相关,反映生物相互作用。因为低频季节性信号比高频信号强得多,所以传统的相关性分析主要受季节性影响,并且忽略了高频信号(图1c、1d中呈现的模拟数据)。虽然可能忽略可能的相互作用,但可用于群落内共享生态位的研究,也可以帮助研究人员分辨生物和非生物成分。

协方差受中性作用驱动

在某些情况下,物种丰度的波动不能归因于物种间相互作用、环境因素的变化或生态位约束,可能只是群落结构的随机变化。中性模型模拟随机出生、死亡、迁移和物种形成的群落结构变化,可以为物种的相关性分析提供一个有效的零假设作为参照。

 

分析考量

微生物数据结构复杂性

微生物组测序数据不符合许多传统统计方法的假设。微生物群落物种丰度分布具有极短的肥尾,在极少的样品中检出大量的低丰度类群。因此,微生物组数据矩阵是高度稀疏的。我们还不了解这种罕见的函数形式,使得归一化变得困难。很难判断“零”代表物种缺失,还是由于采样限制而未被检测。现有的方法还没有解决这个问题,只能随机赋一个很小的数值或将低丰度分类单元删除再计算相关性。

数据转换产生虚假关联

在分析来自高通量测序平台的微生物组数据时,必须消除样本间文库大小的差异。由于零和约束,一个物种相对丰度的变化会影响其他物种的相对丰度(图2),违背经典统计固有的独立性假设。

图2. 由绝对丰度转化为相对丰度时会产生虚假关联,可以选择使用对数比率转换方法(例如SparCC)。a. 样本群落中有六个物种,具有一个正相关线性关联,群落的绝对丰度和相对丰度的波动情况如图所示。b. 样本群落中有六个物种,具有一个负相关和两个正相关线性关联。c.样本群落中有15个物种,具有三个正相关和两个负相关线性关联。正相关和负相关分别用黄色和深蓝色的连线表示。利用皮尔逊相关分析生成绝对丰度和相对丰度的群落相关矩阵,并使用SparCC生成相对丰度的相关矩阵。相关矩阵中彩色边框表示p值<0.05, FDR的q值<0.1的关联。红色边框表示假阳性,蓝色边框表示真阳性,黄色边框表示假阴性。

 

无意义的间接关联

如果一个物种与多个物种存在相关关系,相关性的计算方法就会受到间接关联的影响(图2b,c)。SPIEC-EASI, FlashWeave和直接关联分析等新方法利用条件独立的概念减少虚假关联的数量。无论是推断种间关系还是与环境的关联,都应考虑间接关联的影响,以避免产生虚假的、无意义的关系。

批次效应导致偏差

因不同批次测序数据之间生物的遗传信息存在差异、技术方法不同,微生物组数据容易产生批此效应(即偏差)。这些影响高度复杂且非线性,使得传统校正方法不适用于微生物组数据。目前,数据处理和校正方面取得了一些进展,最佳做法是在某一特定批次内进行统计分析,并在多个批次之间比较独立分析的结果。

经验考量

相对丰度的变化不一定反映种群增长率

相对丰度的变化往往不能反映种群的增长率。在缺乏绝对丰度信息的情况下,我们无法区分一个生物种群是否真的在增加,或者这种相对丰度的增加是否由于另一个物种的减少而发生。为了解决这个问题,研究人员可以对样品的绝对生物量进行测量,或者在测序过程中添加标准物质。

除此之外,还必须考虑时间和空间尺度。如果数据不满足模型假设,得出的任何结论都不可信。

图3. 优化抽样策略使其符合所需的时空尺度。土壤环境具有异质性。a.土壤群落中与环境相关的物种间相互作用:蓝色和绿色物种只在扰动时发生相互作用。b.较低的采样频率适用于研究慢速恢复过程中物种的相关性。c.较低的采样频率不适用于研究慢速恢复过程中物种的相关性。

环境异质性是很强的驱动力

在土壤中,厘米甚至微米尺度上也可能发生pH值、可利用C和含水量的剧烈变化。如果环境条件在采样的空间或时间尺度上发生变化,生物也会随之变化。生态位空间变化引起的生物的变动称为生境过滤,这通常是微生物生态系统结构变化的主要驱动因素,但无法提供物种间直接相互作用的信息。在相互作用复杂或具有环境异质性的条件下,相互作用的预测十分困难。

总结

我们分析了相关分析在微生物生态学领域应用的挑战,并介绍了几种相关方法。我们的目的是利用相关性来推断生物间的相互作用。虽然相关分析对处理和分析组学数据非常有用,但它们也会造成误导。通常情况下,变量之间是否存在相关性几乎不能提供任何关于生物相互作用的信息。综合其他类型的数据进行相关分析,可以极大地优化分析结果。扰动实验将待研究的环境系统从稳定状态中区分出来,可以推断出更具体的相关结构。利用中观或微观世界有助于克服环境异质性和高阶物种相互作用的混杂影响。然而,即使在这些简化的系统中,研究人员也应该对推断出的相互作用保持高度怀疑。生物信息学方法只能产生假设,为了从根本上证明这些假设,实验验证是不可或缺的

参考文献:

Carr A, Diener C, Baliga N S, et al. Use and abuse of correlation analyses in microbial ecology[J]. The ISME journal, 2019, 13(11): 2647-2655.

原文链接:

https://www.researchgate.net/publication/334092409_Use_and_abuse_of_correlation_analyses_in_microbial_ecology

  

中国科学院生态环境研究中心

环境生物技术重点实验室

邓晔 研究员课题组发布

编译:王丹蕊

猜你喜欢

10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature Cell专刊 肠道指挥大脑

系列教程:微生物组入门 Biostar 微生物组  宏基因组

专业技能:学术图表 高分文章 生信宝典 不可或缺的人

一文读懂:宏基因组 寄生虫益处 进化树

必备技能:提问 搜索  Endnote

文献阅读 热心肠 SemanticScholar Geenmedical

扩增子分析:图表解读 分析流程 统计绘图

16S功能预测   PICRUSt  FAPROTAX  Bugbase Tax4Fun

在线工具:16S预测培养基 生信绘图

科研经验:云笔记  云协作 公众号

编程模板: Shell  R Perl

生物科普:  肠道细菌 人体上的生命 生命大跃进  细胞暗战 人体奥秘  

写在后面

为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。PI请明示身份,另有海内外微生物相关PI群供大佬合作交流。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍未解决群内讨论,问题不私聊,帮助同行。

学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”

点击阅读原文

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值