Nat. Biotechnol. | MetaPhlAn 4:扩展和改进宏基因组中囊括未知物种的分类学分析

点击蓝字   关注我们

EMBLab

导读人:王婧    校稿人:王凌琴,赵泽

论文ID

原名:Extending and improving metagenomic taxonomic profiling with uncharacterized species using MetaPhlAn 4

译名:MetaPhlAn 4:扩展和改进宏基因组中囊括未知物种的分类学分析

通讯作者:Nicola Segata

作者单位:Department CIBIO, University of Trento, Trento, Italy

期刊:Nature Biotechnology

发表时间:2023

08d3793e2077552c0e84b2cbc3a638bb.png

研究背景

鸟枪法宏基因组测序和相关计算分析发展成为研究人类、动物和自然环境中复杂微生物群落的分类组成和功能潜力的强大方法,由于其灵敏度受复杂环境的限制,仅能检测现有数据库中已登记分类的微生物物种。宏基因组组装基因组(MAGs)可有效恢复数据库中缺失的尚未被分离或分类的微生物序列,但因其分类群覆盖范围不足,通常只能捕获复杂群落中的有限生物。本研究提出了MetaPhlAn 4,利用已知微生物基因组和MAGs的组合扩展集,定义了物种水平上的基因组箱(SGBs),以进行更全面的宏基因组分类学分析。从101万个原核生物参考基因组和宏基因组组装基因组的集合中,在物种水平为26970个基因组箱定义了特异性的标记基因,其中4992个在物种水平上尚未分类。MetaPhlAn 4在全球人类肠道微生物中增加了约20%的短序列物种注释,而在尚未充分研究的环境(如反刍动物瘤胃微生物组等)中增加了40%。MetaPhlAn 4在综合评估分析方面比现有可替代方案更准确,同时还可以对未培养分离的生物体进行准确定量。

研究方法

MetaPhlAn 4分类分析依赖于检测物种特异性标记基因的集合并估计其覆盖率,进一步评估鸟枪法宏基因组样本中已知和未知微生物类群的相对丰度。MetaPhlAn基于序列定义的物种水平基因组箱(SGBs)的概念,突破了许多人工分类分配的局限,并包含了现有微生物参考基因组(kSGBs)和完全基于宏基因组组装的基因组(uSGBs)定义的分类单元。

为构建SGB特异性标记的MetaPhlAn数据库,收集了729195个去重复和质量控制的基因组(560084个MAGs和169111个参考基因组)。定义了21373个科水平基因组分箱(FGBs),47643个属水平分箱(GGBs)和70927个种水平分箱(SGBs),其中23737个分箱至少含1个kSGBs,47190个只包含uSGBs。仅选取含至少5个MAGs的uSGBs(未过滤),以减少SGBs结合组装产物或嵌合序列的概率。使用UniRef90数据库对基因组目录进行注释,未被分配到UniRef90基因家族的全部基因按照Uniclust90标准以90%氨基酸同一性从头聚类,由此产生UniRef90和UniClust90注释。为每个质控的SGB定义了一组核心基因,并将所有核心基因与整个基因组目录进行比对,在21978个kSGBs和4992个uSGBs中得到510万个特异性SGBs标记基因。

对于使用SGB数据标记基因的分类分析,MetaPhlAn 4使用Bowtie 2将宏基因组序列映射到标记基因数据库中,根据比对结果估计每个标记基因的覆盖率,并将进化支上标记基因覆盖率的稳健平均值作为同一进化支的覆盖率。最后对所有分支的覆盖率进行标准化,得到每个分类单元的相对丰度。

研究结果

01

物种水平基因组分箱的MetaPhlAn 4分析

通过利用现有细菌和古细菌参考基因组和宏基因组组装,MetaPhlAn 4扩展并改进了现有的宏基因组分类分析能力。所有数据经过整合预处理后,对数百万个特异性的标记基因进行宏基因组图谱绘制,量化群落中已分离的和宏基因组组装的生物。

采用SGBs作为主要分类单元进行物种鉴定和丰度定量是该方法的核心。简言之,SGBs是基于5%基因组同一性的全基因组遗传距离聚类来划分微生物物种,然后可根据分离测序的特征基因组的存在与否将分类标签分配给SGBs。为构建SGBs数据库,从NCBI中获得了236620个细菌和古菌基因组作为分离株基因组,并标记为“分离测序或单细胞测序”,与来自人类、动物宿主和非宿主相关环境样本中的771528个MAGs整合,质控后以5%的序列相似性聚类。研究重点关注从宏基因组中识别和量化分类群,因此为降低SGBs假阳性检测率,仅保留了含有来自不同样本的至少5个MAGs的uSGBs用于后续分析,最终产生2.94 万个质控后的SGBs。

相较于先前版本,该算法在以下4个方面进行优化:(1)以SGBs作为主要分类单元,其中每一组微生物基因组和MAG在大致种水平上被归为现有种和新定义的基因组簇;(2)一百多万个MAGs和基因组整合到SGBs结构中,以构建目前可用的最大的微生物参考序列数据库之一;(3)基于分类一致性的微生物基因组对分类单元进行管理,并将新分类标记分配给仅在MAGs上定义的SGBs,(4)改进后的程序通过从每个SGBs中提取特异性标记基因,用于MetaPhlAn的比对。因此,MetaPhlAn 4利用综合宏基因组组装和已知物种序列的分析,具有揭示以前未发现物种的潜力以及基于参考序列分析的灵敏性,可以提供准确的分类鉴定和定量(图1)。

5de9faf4c544ca3ba7b5c487e493a1fe.png

图1. MetaPhlAn4通过整合来自分离株和宏基因组组装基因组的参考序列进行宏基因组分类分析。

02

MetaPhlAn 4提高了分类分析性能

该研究使用133个合成宏基因组(总读长4B),将MetaPhlAn 4与MetaPhlAn 3、Bracken 2.5和mOTUs 2.6等现有方法进行对比,评估分析其分类研究性能。结果表明MetaPhlAn 4的数据样本代表了更多样化的环境,且在评估F1评分、相对丰度量化性能以及特异性检测不包含已分类分离株基因组的uSGBs进化支上的表现均优于其他工具(图2)。

使用单一分离株序列的评估显示,在使用默认参数运行MetaPhlAn 4时,不存在假阳性,并且在覆盖阈值≥0.5×时未出现假阴性。表明MetaPhlAn 4保证在10G碱基的标准测序深度下能检测到所有相对丰度至少为0.01%的SGBs,且通常能进行更低丰度的检测。MetaPhlAn 4 包含3.19万个物种的16.91万个基因组,相较于MetaPhlAn 3中1.35万个物种的9.92万个参考基因组,其检测率的提高主要取决于MetaPhlAn 4中kSGBs目录的扩大。标记基因集质量的提高可能是性能提升的重要驱动力,SGBs系统发育的一致性确保了相同标记类群在基因组上的统一,避免了在原始和人工分配的分类标签中难以检测的错误注释。进一步通过65个人工构建的模拟宏基因组,评估了MetaPhlAn 4检测和定量uSGBs的性能,发现MetaPhlAn 4分析uSGBs(F1:0.97 ± 0.02)与kSGBs(F1:0.96 ± 0.024)的准确性相似。基于未包括在SGB数据集内新发布的MAGs的合成样本分析也呈相似结果(图2)。因此,MetaPhlAn 4在组装数据分析上优于其他工具,并进一步量化了未知物种,同时对分类学定义明确的物种保持了较高准确性。

2c5070fed3f14d819c3082686400c6ba.png

图2. MetaPhlAn4提高了宏基因组分类分析的灵敏度和特异性。

03

MetaPhlAn 4扩展了宏基因组的分类

通过分析来自不同人类、动物和非宿主相关环境的总计2.45万个宏基因组样本,MetaPhlAn4数据库扩大了可量化的微生物物种的数量,完善了许多由kSGBs描述的物种分辨率,并增加了4992个尚未分类的uSGBs。此外,扩展的MetaPhlAn 4能获取环境宏基因组样本中更多的序列(图3a)。在MetaPhlAn 4的分类群中,对环境生态系统(尤其是土壤)的宏基因组的解释通常较少,由于其显著的微生物多样性和缺乏针对性的宏基因组的系统研究,其特征仍然不足,而由于SGBs中包含了Tara ocean的MAG数据集,海洋微生物分类群增加了6.65倍(图3c)。在所有环境中,uSGBs平均占所产生类群丰富度的23.13%(标准差为17.89%),因此uSGBs有效提高了MetaPhlAn 4可分析的宏基因组的比例(图3b)。

此外,SGBs分析也揭示了不同环境下的物种重叠情况,MetaPhlAn 4分析表明,来自大多数非宿主相关环境的微生物组与人类微生物组之间几乎没有重叠,而人类不同身体部位的微生物组重叠很少但有一定关联。

424d0fec51aafdf4f2cc7ff33184dd20.png

图3. MetaPhlAn 4通过量化未知物种(uSGBs)扩大了可观察到的微生物多样性。

04

MetaPhlAn 4扩展了人类肠道常见物种

使用来自86个数据集(包含不同年龄类别、地理位置和生活方式)的1.95万个人类肠道宏基因组评估了SGBs在人类个体肠道微生物组中的普遍程度。西化人群中最普遍的SGBs来自已知物种,特别是Blautia wexleraeBacteroides uniformisPhocaeicola vulgatus。4个F. prausnitzii的不同SGBs出现在前10个最流行的物种内,其中3个在两种不同生活方式人群中流行率差异明显(图3d),突出了SGBs分析能够提高基因差异物种分辨率的能力

基于人群和生活方式新建立的SGBs的普遍率扩展了先前宏基因组研究的范围,并进一步优化了研究细节。虽然大多数uSGBs在人群中的出现率较低,但来自Ruminococcaceae科的4个uSGBs出现频率超过75%,其中许多uSGBs在非西化人群中明显比西化人群中更为普遍(图3e)。在每个特定年龄组中出现率最高的物种在其他年龄组中具有不同的出现率(图3f)。uSGBs在儿童时期尤其常见,与婴儿期和成年期相比,其相关研究可能不足(图3g)。

此外,在小鼠肠道中检测到的SGBs(60.8%)大多数是uSGBs(图4a),表明小鼠饮食的生物指标由uSGBs主导。由于在20%以上样本中有至少50%在科水平上未被分类(科水平基因组分箱的定义与SGBs类似,但前者非同源性高于30%),许多小鼠微生物群落对分离基因组的低映射性也反映在种水平之上(图4b)。

5f10ff98b1fad8f6bd1ce9c9ee963dc1.png

图4. MetaPhlAn 4对仅含少量培养分离类群的小鼠微生物组进行宏基因组精确分析。

05

肠道微生物组与饮食和代谢之间的紧密联系

使用MetaPhlAn 4扩展了肠道微生物组、饮食和宿主代谢之间的联系,重新分析了ZOE PREDICT 1研究中1001个深度表型个体的宏基因组。通过测试基于分类数据训练的随机森林(RF)分类器和回归器的预测能力,评估了微生物组与饮食和心脏代谢宿主变量之间的关联强度。根据MetaPhlAn3,在与微生物组联系最紧密的19个健康和饮食标志物中,除2个纳入MetaPhlAn4分类群外,其余都得到了更好的预测,10年动脉粥样硬化性心血管疾病风险的改善程度最高,健康饮食指数具有强相关性(图5a)。

基于uSGBs对所有19种宿主饮食指标、人体测量和生理指标的相关性分析,微生物组与饮食指标的关联性显著提高(图5a);内脏脂肪和血脂水平与微生物组的相关性更强。ZOE PREDICT 1选择的与健康最相关的10个uSGBs中,相关性最高的Lachnospiraceae SGB4894普遍存在于现代人类群体(健康个体中44.33%)和灵长类动物(41.36%)中,同时出现在古粪便样本60%的宏基因组中,表明该分类单元是健康人类微生物组中一个尚未分类的重要成分。在11种不同人类疾病研究中,发现Lachnospiraceae SGB4894不仅与心脏代谢等健康直接相关的疾病显著关联,还与炎症性肠病相关(图6a)。微生物与心脏代谢血液代谢产物、饮食模式和宿主疾病的联系也可以结合并阐释新定义的uSGBs,即使是对于人类肠道等相对典型的环境,解析微生物组的未知组分具有重要意义。

9d212adbf7413c946a89cde8f2b3a932.png

图5. MetaPhlAn4揭示人类肠道微生物组中未知组分与宿主饮食和心脏代谢相关标志物之间的紧密联系。

06

StrainPhlAn 4重建了大型uSGBs系统发育

MetaPhlAn利用特异性标记基因来检测和量化微生物分类群,也可利用StrainPhlAn方法重建单菌株的特异遗传构成。MetaPhlAn 4优化了StrainPhlAn 4,使其不仅适用于SGBs,也适用于uSGBs分析,并且能构建更准确的系统发育。

为阐释StrainPhlAn分析uSGBs的潜力,利用MetaPhlAn 4的1.95 万个肠道宏基因组样本的同一集合探索Lachnospiraceae SGB4894。StrainPhlAn4在1683个样本中保留了37个SGB4894特异性标记基因,其中目标uSGB有足够的覆盖率进行菌株分析,同时自动建立一个整合宿主类型中的所有菌株概况的系统发育。结果显示,Lachnospiraceae SGB4894由多个亚支组成,其中一个亚支来自西化人群的菌株,另外两个亚支以来自非西化人群或中国人的菌株为主,后者的支内多样性也更高(图6b)。从古粪便样本中重建的一株菌株也被整合到Lachnospiraceae SGB4894系统发育中,并作为以欧洲和北美菌株为主要组成的亚群的基础(图6b),而来自非人类灵长类的菌株则倾向于分布在同一个树上的不同区域。结果显示,StrainPhlAn 4可以出色地对未培养的和尚未命名的物种进行系统发育重建和种群遗传学分析。

StrainPhlAn 4还可以对uSGBs进行菌株共享和群落间传播的分析。值得注意的是,据StrainPhlAn 4估计,在双亲都有效检测到Lachnospiraceae SGB4894菌株的21个组中,母亲和她1岁以下的孩子均不共享该菌株。在同一家庭中,也只有5.63%含有Lachnospiraceae SGB4894的成年人共享同一菌株,这表明该物种难以稳定地垂直和水平传播。

aad7a6c1ca599f8dac421e620d44021d.png

图6. StrainPhlAn 4大规模重建了未分类微生物物种的菌株系统发育。

结论

本研究中,MetaPhlAn 4利用现有细菌和古菌参考基因组和MAGs进行宏基因组分类分析,扩展并改进了现有的功能。将来自分离培养株和宏基因组组装的信息进行整合处理,对数百万个特异性标记基因进行有效的宏基因组图谱分析,准确量化了群落中已分离培养的和基于宏基因组组装的微生物。相比于MetaPhlAn 3、mOTUs 2.6和Bracken 2.5等工具,MetaPhlAn 4的分析灵敏度和特异性更高;数据库不仅扩大了已知物种数量,还能大规模准确地重建未知物种的菌株水平系统发育。数据集扩展了现有MetaPhlAn算法,使人类、宿主和环境微生物组的分类定量分析更加深入和准确,并为微生物组与宿主条件相关联的研究提供了参考。

点击“阅读原文”

*:本文如有不足,请批评指正

EMBLab

EMBLab

环境微生物组与生物技术实验室

39f8456ab4241ee5386f499573bd80b6.gif

环境微生物组学研究环境中全部微生物及其遗传信息,其方法学基础与理论拓展应用是国际学术前沿和热点。西湖大学环境微生物组与生物技术实验室开展环境工程学与微生物学交叉学科研究,研究兴趣包括:1)环境微生物组学与群落构建机制;2)抗生素耐药组及病毒组监测与风险阻控;3)新污染物降解转化和健康效应。

354b309f2273006c5a6db8d224dd2971.jpeg

EMBLab成员

实验室目前招聘

环境微生物组学与合成功能菌群/抗生素耐药与病原菌监测及组学研究/新污染物治理科学与技术方向【博士后】2 名。环境科学与工程、微生物学、基因工程、合成生物学、生物信息学、昆虫学专业【科研助理】2名。

欢迎大家与我们联系。

联系邮箱:

jufeng@westlake.edu.cn

xuyisong@westlake.edu.cn

af74fc7406e3b4180a19ee84b20aa1d5.jpeg

鞠峰

EMBLab负责人

鞠峰,西湖大学特聘研究员、博士生导师(环境科学与工程、生物学),环境微生物组与生物技术实验室负责人 (PI),曾获中国生态学会“水云天微生物生态青年科技创新奖-特等奖”(2018)、香港科学会“青年科学家奖”(2016)等。近5年承担或参与国家基金委专项、科技部国家重点研发计划、省重点研发计划等项目5项,获浙江省杰出青年基金项目资助。近10年发表SCI期刊论文68篇,包括Nature Communications、Advanced Science (2篇)、ISME Journal (5篇)、Microbiome (2篇)、Environmental Science & Technology (12篇)、Water Research (9篇) 等领域知名期刊;引用4600余次,H-指数30。目前担任浙江省海岸带环境与资源研究重点实验室副主任、Frontiers in Microbiology副主编、中国工程院院刊Engineering编委,Engineering in Life Sciences 编委、Environmental Science & Ecotechnology、Journal of Environmental Sciences等SCI期刊青年编委。

猜你喜欢

iMeta简介 高引文章 高颜值绘图imageGP 网络分析iNAP
iMeta网页工具 代谢组MetOrigin 美吉云乳酸化预测DeepKla
iMeta综述 肠菌菌群 植物菌群 口腔菌群 蛋白质结构预测

10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature

系列教程:微生物组入门 Biostar 微生物组  宏基因组

专业技能:学术图表 高分文章 生信宝典 不可或缺的人

一文读懂:宏基因组 寄生虫益处 进化树 必备技能:提问 搜索  Endnote

扩增子分析:图表解读 分析流程 统计绘图

16S功能预测   PICRUSt  FAPROTAX  Bugbase Tax4Fun

生物科普:  肠道细菌 人体上的生命 生命大跃进  细胞暗战 人体奥秘  

写在后面

为鼓励读者交流快速解决科研困难,我们建立了“宏基因组”讨论群,己有国内外6000+ 科研人员加入。请添加主编微信meta-genomics带你入群,务必备注“姓名-单位-研究方向-职称/年级”。高级职称请注明身份,另有海内外微生物PI群供大佬合作交流。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍未解决群内讨论,问题不私聊,帮助同行。

点击阅读原文

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值