来自婴幼儿肠道微生物组基因组的32,277个组装基因组目录有超过8000万个基因
A compendium of 32,277 metagenome-assembled genomes and over 80 million genes from the early-life human gut microbiome
Article,2022-08-16,Nature Communications,[IF 16.6]
DOI:10.1038/s41467-022-32805-z
原文链接:https://www.nature.com/articles/s41467-022-32805-z
第一作者:Shuqin Zeng
通讯作者:Shaopu Wang(王少璞)
主要单位:
四川大学华西第二医院儿科系,四川大学妇女儿童出生缺陷及相关疾病教育部重点实验室
- 摘要 -
人类肠道微生物组的年龄特异性参考基因组可以为宏基因组分析提供更高的分辨率,包括物种分类、菌株水平的基因组研究和功能表征。我们展示了早期肠道基因组(ELGG)目录,其中包含32,277个基因组,代表2172个物种,来自6122个粪便宏基因组样本,这些宏基因组样本来自3岁以下儿童,涵盖分娩方式、胎龄、喂养模式和不同地理位置。ELGG通过将宏基因组的募集序列增加到82.8%,在分离培养的微生物基因组和婴幼儿微生物组基因组的基础上大幅提高了38%的系统发育多样性。超过60%的ELGG物种缺乏分离获得的代表菌株。与成人相比,来自儿童的最丰富物种的同种基因组在基因多样性和功能上有所不同。ELGG基因组编码超过8000万个蛋白质序列,形成了包含超过400万个蛋白质簇的早期肠道蛋白(ELGP)目录,其中29.5%缺乏功能注释。ELGG和ELGP参考基因组为婴幼儿肠道微生物组提供了新的见解,并将促进我们对婴幼儿肠道微生物组紊乱的发展及机制的研究和理解。
- 引言 -
人类肠道微生物组—存在于胃肠道中的巨大微生物生态系统—被认为在整个生命过程中在宿主健康和各种疾病中发挥着多种关键作用。生命早期肠道微生物组的获得和发育对生命后期该微生物群落的结构和功能具有长期影响。尽管越来越多的研究提供了对早期肠道微生物组的实质性见解,对生命早期肠道微生物组在基因组分辨水平的广泛宏基因组分析仍然很少。拥有婴幼儿肠道微生物组的高质量和广泛的参考基因组可以提高分类学和功能分析的分辨率和准确性,这对于推动未来婴幼儿微生物组研究至关重要。
为了增加从人类肠道中分离出的参考基因组的数量,研究者们已经做出了巨大的努力,例如人类微生物组计划(HMP),人类胃肠道细菌基因组收集(HGG)和可培养基因组参考基因集(CGR),然而,目前可用的代表人类肠道微生物组的参考基因组仍然代表性不足。因此,在培养的同时,从头组装鸟枪法宏基因组序列并分箱到宏基因组组装基因组(MAG)中(一种不依赖培养且无参考的方法)被认为是有效发现潜在微生物多样性的有用策略,而这种微生物多样性与实验室中的培养方法区别较大。组装获得MAGs大幅扩展了来自不同环境生态位中的“生命之树”。研究描述了一些动态的微生物组变化,包括与成年期相比,在生命早期发生的分类组成和菌株特异性功能适应。例如,大多数在母乳喂养期间主导肠道微生物组并在生命后期消散的双歧杆菌菌株通常携带大量负责母乳低聚糖(HMO)利用的基因簇;而这些基因簇在断奶后不再存在于大多数双歧杆菌菌株中。了解菌株在基因含量和功能方面的特异性差异还需要婴幼儿肠道微生物组的代表性基因组。以前的MAGs研究要么只分析来自非人类肠道来源的样本,或来自人类肠道,但婴幼儿粪便样本的比例相对较低。此外,统一人类肠道基因组(包括MAGs和分离株基因组)确实为肠道微生物组在各种分类和功能水平上的丰富性、多样性和可培养性提供了新的见解。然而,目前还没有专门为婴幼儿肠道微生物组设计的大规模MAG目录。
因此,为了填补这一空白,我们专门分析了来自出生后3岁前儿童的6122个粪便宏基因组,并生成了一组32,277个MAG,这些MAG聚类为2172个物种水平的簇,以及代表4,036,936个基因簇的86,678,654个基因,分别形成了婴幼儿肠道基因组(ELGG)和蛋白质(ELGP)目录。通过这些全面的序列收集,我们在基因组水平上表征了婴幼儿肠道微生物组的分类和功能特征,并调查了与各种临床因素相关的儿童肠道微生物组中存在的基因组变异。
- 结果 -
从6000多个婴幼儿肠道宏基因组中重建32,277个微生物基因组
Recovering 32,277 microbial genomes from over 6000 early-life gut metagenomes
为了阐明婴幼儿肠道微生物组在基因组水平上的差异,并扩展生命早期新的人类肠道微生物谱系的基因组,我们对从出生到三岁的儿童在四大洲的6122个多国分布的宏基因组上采用了宏基因组组装和分箱的组合(图1a;补充数据1)。与用于构建统一人类胃肠道基因组(UHGG)的宏基因组相比,有1904个宏基因组相同。MAG由三种不同的分箱工具(即MetaBAT、MaxBin和CONCOCT)产生,然后使用metaWRAP进行整合和改进,以去除重复项并提高组装基因组的质量(图1b)。遵照该分析流程,共有42,054个MAG达到或超过基于“关于宏基因组组装基因组的最小信息”(MIMAG)标准的中等质量标准(≥50%完整性和<10%污染)。为了提供更严格的基因组质量控制,我们选择了那些具有完整度>50%和污染率<5%,以及基因组质量评分(定义为完整性-5×污染率,QS)>50且无嵌合体并满足GUNC的基因组,生成了32,277个MAG用于后续分析,我们将其称为ELGG目录(图1c,d;补充数据2)。32,277个MAG的碱基数量中位数值大小为2.59M碱基(Mb)(四分位距,IQR=2.08–3.75MB),N50值介于1.7kb和2.8Mb之间。在ELGG目录中,25,303个MAG(占总数据集的78.4%)完整度>90%(IQR=97.3-99.7%),<5%被污染(IQR=0.00-1.04%),以下称为“接近完整”的基因组。其中4614个MAG子集(占接近完整基因组的18.2%)具有5S、16S和23S rRNA基因以及至少18个标准tRNA,这些基因组可归类为基于MIMAG标准的“高质量”基因组草图。回收的高质量MAGs比例相对较低,与之前对人类肠道MAGs的大规模研究相当,这是用短读长序列组装宏基因组MAG均会面临的典型挑战。ELGG目录的其余部分包括6974个中等质量的MAG(>50%的完整性和<5%的污染率)(图1d)。其他基因组统计量参数(包括重叠群数和N50长度、基因组深度和相对丰度)与中等质量MAG相比,也表明近乎完整的MAGs的质量高,即使与QS=75的中等质量MAG相比(图1c)。
与以前的研究一致,使用CMSeq在每个基因组水平上进一步研究了ELGG目录的菌株基因组异质性,这被认为是评估基因组质量的有用措施。我们发现ELGG目录中基因组的中位菌株异质性(多态性位置的比例)为0.005%(IQR=0.001–0.031%;图1c),远低于UHGG目录(0.06%),该目录涵盖所有年龄段的人类肠道样本。与ELGG目录中的中等质量基因组相比,近乎完整的基因组显示出较低的菌株异质性水平(图1c)。
图1 婴幼儿肠道微生物组序列目录的重建
a 按临床特征分组的粪便宏基因组的数量和比例,包括年龄、性别、分娩方式、胎龄和喂养方式。
b 生成ELGG和ELGP目录的计算流程概述。
c 接近完成(n=25,303)、质量得分(QS)>75(n=2063)的中等质量和QS≤75(n=4911)的中等质量的MAG的质量指标。每百万次序列的CPM拷贝数。
d 32,277个基因组中每个基因组的完整性和污染度评分。QS=完整性–5×污染。
婴幼儿肠道微生物组的参考蛋白质目录
A reference protein catalog for the gut microbiome early in life
为了扩大我们对婴幼儿肠道微生物组功能的理解,预测了32,277个MAG中每个MAG的蛋白质编码序列(CDS),总共产生了86,678,654个基因。将来自6122个宏基因组样本中未分箱的重叠群的基因考虑在内时,这些基因占所有基因的54.9%。在以95%的氨基酸同一性聚类蛋白质序列后,我们获得了4,036,936个蛋白质簇,形成了ELGP目录。稀疏分析表明,由于ELGP簇的数量随着所包含的MAG数量的增加而稳步增加,因此仍未达到饱和点(图2a),并且在包含来自6122个样品的所有重叠群时也观察到了这种模式(补充图1a),这与过去的观察结果一致。然而,当去除有1个蛋白质序列的蛋白质簇时,蛋白质簇的数量接近饱和(图2a;补充图1a)。这可能表明,尽管来自儿童肠道微生物组的微生物基因仍然被低估,但大多数未被发现的基因可能是罕见的。我们进一步将我们的婴幼儿基因目录与大型蛋白质数据库(统一人类胃肠道蛋白(UHGP)进行了比较,该数据库主要包括来自成人肠道的微生物基因,同样以95%的蛋白质同一性进行聚类后(n=20,239,340)。结果显示,ELGP中有290万个基因簇与UHGP目录一致,但ELGP中有很大一部分(27.3%,n=1,076,116)未在UHGP中存在,而且当考虑所有86,678,654个基因时1,076,116个簇的蛋白质总数占5.4%,这是儿童肠道微生物组独特性的基础。在仅来自ELGP或UHGP的蛋白质簇中,分别有27.6%(n=296,624)和30.1%(n=3,972,835)的蛋白被注释为已知功能的蛋白,其余蛋白簇是推定或假设的蛋白(图2b)。因此,我们的研究结果提供了婴幼儿肠道微生物组蛋白质空间的广泛蛋白集,可作为婴幼儿肠道微生物组研究的参考蛋白质集。
为了更好地阐明早期肠道微生物组的功能多样性,我们用当前可用的数据库注释了ELGP目录的基因功能,包括直系同源基因簇(COG)、KEGG模块、4级酶委员会类别&#x