Fungal Diversity | 全球土壤真菌群落联合数据集

703f08efd5d1f4c73e568d8cb66afe1e.gif点击蓝字↑↑↑“微生态”,轻松关注不迷路

59a69a0847ae929b9bcde1aa2adfb8bb.png

生科云网址:https://www.bioincloud.tech


编译:微科盟达达兔,编辑:微科盟小编、江舜尧。

微科盟原创微文,欢迎转发转载,转载须注明来源《微生态》公众号。

导读

真菌是陆地生态系统中非常重要的生物组成部分,但是我们对他的多样性和分布的了解非常有限。为了促进真菌多样性、生物地理学和宏观生态学的进一步研究,本文发布了全球土壤真菌群落(GSMc)的数据集。数据集通过对各大洲108个国家的3200个样地ITS和18S-V9可变区进行PacBio测序,获得了722682个真菌操作分类单元(OTUs)这些样地提供了样地和土壤元数据。OTU在分类和功能上归属于集团和其他功能团体。数据集已经校正,通过排除嵌合体、索引开关伪迹和潜在污染。本数据集在真菌的地理广度和系统发育多样性方面比以前发布的数据更具包容性。GSMc数据集可以通过PlutoF存储库获得

论文ID

原名:The Global Soil Mycobiome consortium dataset for boosting fungal diversity research

译名:促进真菌多样性研究的全球土壤真菌群落联合数据集

期刊:Fungal Diversity

IF:20.372

发表时间:2021.11

通讯作者:Leho Tedersoo

通讯作者单位:爱沙尼亚塔尔图大学

DOI:10.1007/s13225-021-00493-7

实验设计

63a2a4d95d09221ee2cb7b1b233ecf21.png

86fe16595a2f8bdfd7b27c789a4cbfc9.png

图1. 3200个样地的地理分布(紫色点)。

结果

1覆盖分类

对61个库进行多路分离得到30,043,967条序列,被分配给GSMc样本。通过质量过滤回收了17,899,467个读取用来聚类,20,331,906读取到OTUs的映射。98%的序列相似度阈值聚类产生1,251,637个OTUs包括709,791个单例。基于文献和算法表明,30233个非单例(4.8%)和59,855个单例(10.5%)的OTUs是假定的嵌合体。基于额外检查和筛选(参见方法),2.4%的非单例和10.2%的单例OTUs被移除,因为他们被认为是嵌合的、部分的或低质量的。我们承认,多个嵌合的OTUs可能仍然存在于数据集中,许多高质量的OTUs可能会由不完整的序列或包含rRNA基因的序列表示。

所有1,157,667个经质量过滤的OTUs(18,782,650条)中,真菌占主导地位(722,682个OTUs, 62.4%),其次是囊泡虫(175,265,15.1%),后生动物(75139,6.5%),根菌(34376,3.0%)和绿色植物(31,329, 2.7%)(图2a)。真菌在序列丰度上也占主导地位(14,391,752条,76.6%),其次为囊泡虫类(Alveolata)(11.4%)。对V9区域进一步分析,我们可以解析一半左右的类群,这些类群没有根据ITS区域的全长归属到界和门上。18S-V9区域对于鉴定在公共数据库中参考数据稀缺的分类类群特别有用。7.4%的OTUs和2.7%的读取不能归属于任何真核生物界。根据ITS和18S-V9区域的最佳匹配,大多数未知区域可能代表顶复亚门(Apicomplexa) (囊泡虫类),无脊椎动物(后生动物(Metazoa)),真菌(Rozellomycota)和变形虫(Amoebozoa)。

GSMc真菌OTUs中,有393,375个(54.4%)为单次序列,有329,307个(45.6%)为多个序列。真菌在非单株(71.9%)中比单株(56.2%)更常见,这说明真菌比其他真核生物组的覆盖率更高。关于真菌的序列,在其他全长ITS数据集中也发现了29117(7.4%)的OTUs。

在真菌界,子囊菌门(Ascomycota) (330054OTUs,45.7%)和担子菌门(Basidiomycota) (204,667,28.3%)占主导地位,其次是Rozellomycota(37,046,5.1%),球囊菌门(Glomeromycota) (22,361,3.1%)和壶菌门(Chytridiomycota)(19,794,2.7%)(图2b)。但是担子菌门(Basidiomycota) (42.8%)、子囊菌门(Ascomycota) (41.0%)和孢霉菌门(Mortierellomycota) (6.2%)的读取数最多。总的来说,7.1%的真菌OTUs(占总读取数的1.4%)不能归属于任何门。在目水平上,伞菌目(Agaricales) (59385 OTUs,8.2%),柔膜菌目(Helotiales) (42,177,5.8%)和革菌目(Thelephorales) (42,080,5.8%)是OTU最富的类群(图3,4)。革菌属(Tomentella)

(34,202 OTUs,4.7%),青霉属(Penicillium) (20,893,2.9%)和红菇属(Russula) (15,784,2.2%) OTUs数量最多。

在功能菌群方面,EcM真菌、土壤腐生菌、未注明的腐生菌和未注明的致病菌是最丰富的类群,共124,616种,OTUs分别为124,616(17.2%),75,530(10.5%),49,521(6.9%)和43.758(6.1%)。应注意的是,38.6%的OTUs不能被分配给任何功能性菌群。由于菌根真菌被大家熟知,这些未分类的类群可能主要代表各种腐生菌和拮抗菌。

bb82634e1528f3547aa320e375144d39.png

图2. 真菌和真菌门在ITS-full(a-c)和ITS2(d-f)数据集中在GSMc(a,b,e)、UNITE-INSDc(c,f)和GlobalFungi(d)数据库中的分布。真菌OTUs的总比例(%)显示在每张图的下方。

270b92dc374e40546095f19a2d6badac.png

 图3. 根据Krona图的样品中的子囊菌组成分类剖面。图形可以在https://doi.org/10.15156/BIO/1436941上交互扩展。

9296b8f585120afd88cdd8b88b087b45.png

 图4. 根据Krona图的样品中的担子菌科成分分类图谱。图形可以在https://doi.org/10.15156/BIO/1436941上交互扩展。

2样地

在全球范围内GSMc的样地分布相对均匀,覆盖了108个国家(两个国家只有失败的样本)和所有大洲。由于案例研究较多,爱沙尼亚和拉脱维亚的覆盖率相对较高。在东亚、印度-马来亚、太平洋岛屿、中非、加拿大北极和西伯利亚的采样覆盖率最低。

质量筛选结果显示,在4668个组合中,130个DNA样本和文库组合产生的读取数较少(总数小于1000条),其中38个可能受到对照、其他样本或未知来源的污染。从未污染样地和文库组合中提取的DNA序列,揭示了3200个样地的信息。来自多个库的综合数据平均包含3832个真菌读取(SD,3075个读取)和748个OTUs(SD,401个OTUs)。测序最深入的样本中包含大于2000个真菌OTUs。

3. 全球土壤真菌群落联合数据集

GSMc数据集有3200个样本和722,682个OTUs,矩阵全量(连通性,非零值)为0.006%。各个样地稀疏性分析显示出OTU丰富度持续增加。研究人员的对数外推预测,在两倍大的取样深度(6400个样地)和10,000个样地深度分别存在115万和153万个真菌OTUs(图5)。我们不对全球土壤真菌丰富度进行推断和估算,因为OTU的加速累积和单例质量的不确定性对参数和非参数估计值的准确性起着关键作用。

数据集和元数据的丰富度相关联。大约99%的地块都标有精确的采样日期和地理坐标;对于其他的大部分样地,如果已知0.1度或更好的精度,就从地图上推导出近似坐标。通过对样地和遥感资料的描述,建立了土地利用的生物群落和类型。这些定制的生物群落和当地的植被覆盖相匹配,而不是地理上划分的生物群落。此外,研究还补充了土壤全磷、全氮含量和δ15N值(15N与14N的同位素比值)的数据。本研究还提供了该地块的植被是否是原生的还是非原生的信息以及最后报道的火烧信息。本研究还注意到与原始方案的不同之处(例如,子样本数量和地块面积),还对可能影响质量的样品(例如,高霉菌丰度或潜在污染物)进行警告。

ac5de1f1fde9aa72bec605982d27e2b6.png

图5. 随时空采样深度增加基于情节稀疏和外推(虚线)的OTU累积曲线。

讨论

1分类法

GSMc数据集包含722,682个真菌OTUs,超过联合UNITE-INSDc数据集(820,138条真菌序列,分为125,363个OTUs) ITS序列全长数据的6倍。这也超过了Tedersoo等人(2014)的数据集,这个数据集依赖于ITS2区域已经过时的454测序技术(963,458个序列分为80,486个OTUs,包括未过滤的单例)。GSMc和UNITEINSDc数据集共有47310个真菌OTUs,分别占GSMc OTUs的6.5%和UNITE-INSDc的37.7%。UNITE-INSDc数据集缺乏高比例的非Dikarya。相反,GSMc数据集里缺失的大多数OTUs (但在UNITE-INSDc中丰富)主要包括各种脊椎动物病原体和地衣真菌,以及炭疽菌(Colletotrichum)的几种植物致病性物种,这表明土壤采样不一定能捕获与土壤环境无关的专性生物营养体。

基于GlobalFungi(GF)数据集推荐的聚类参数和识别阈值,我们比较了GSMc完整ITS数据和ITS2数据子集的分类特征。GSMc的ITS2子集包含435,192个真菌OTUs(12,909,562个读取),比完整的ITS数据集少39.8%。本研究发现GSMc ITS2亚群的真菌丰富度较低主要因为对远相关OTUs的界水平的识别能力较低,这在Rozellomycota和其他非双核亚菌界(non-Dikarya)中特别明显(图2b,e)。例如,Zoopagomycota和BCG2分支在ITS完整区域的丰富度比ITS2分区域要大十倍。相反,UNITE-INSDc中ITS2序列的OTU丰富度越高,说明通过质量筛选和较差聚类的短读取的比例越高。

GSMc和GF数据集的比较受GF数据集的异构性的限制(即不同的取样和分子分析方案),以及生物信息学协议中数据集之间的差异。按照Baldrian等人的选项重新分析时,GSMc的ITS2子集,UNITE和GF(如Baldrian等人在2021年所述)分别包含了435,192(12,909,562读取数),102,563(805,278读取数)和951,833(193,411,059读取数)的真菌OTUs。GSMc和GF数据集包含5537(SD,3686)和20832(47104)个读取数,以及1037(556)和716(1274)个OTUs。

GSMc数据集,UNITE-INSDc和GF数据集的真菌门分类比较,有意想不到的差异(图2d-f)。与其他数据集相比,GSMc数据集中许多非双核菌亚界(Dikarya)谱系的相对比例和丰富度要大。比如GSMc数据集里的真菌门GS01、浮游动物门(Zoopagomycota)、嗜虫真菌门(Entomophthoromycota)、芽枝霉门(Blastocladiomycota)和臭氧菌门(Kickxellomycota)的相对丰度和绝对丰度分别比ITS2数据集大10倍。这可以用抽样和分析偏差来解释。首先,这些分类的物种不形成子实体和菌根,而子实体和菌根是UNITE-INSDc中常见的分离源。其次,用于真菌的元编码的经典引物可能对几组非双核菌亚界(Dikarya)有很大的偏差。第三,也许是最重要的一点,ITS1和ITS2中许多非双核菌亚界(Dikarya)的读取数由于缺乏适当注释的参考序列,不能进行可靠的分类。

从ITS2亚群判断,GSMc、UNITE和GF的真菌OTUs重叠比例很低。有趣的是,与GF相比,GSMc和UNITE倾向于共享更高比例的类群,虽然GSMc和GF数据都包括来自Tedersoo等人的样本。在属的水平上,GF中有许多类群,如蜡蘑属(Laccaria)和Ruhlandiella的OTU丰度很高(图6c-f),而其他类群如下梳霉属(Coemansia)和耳霉属(Conidiobolus)就没有(图6g-j)。已知的丰度相对较低的物种有很高的OTU丰度,这可能反映出GF中数据质量的不均衡,因为这些记录很大一部分来自于单个研究的Illumina的单端读取数。相反,特异类群的缺乏可能因为PCR和引物的偏差以及Illumina文库的长度偏差。在GSMc数据集中,发现多个属,他们有超过1000个碱基的全长ITS区域(例如,(比如,疣柄牛肝菌属(Leccinum),喇叭菌属(Cantharellus),凤仙花(Balsamia),头珠霉属(Piptocephalis),(Spizellomyces p.parte)和粉红孢子伞菌类(Entoloma p.parte))。考虑到技术上的偏差和最多可测序590个碱基扩增子,这些分类群可能很难用短读测序来检索(包括索引和引物)。

6b0cea45dbc0f84217e5ff025d454dba.png

图6. 基于GSMc(橙色)、UNITE-INSDc(绿色)和GlobalFungi(蓝色)数据库的ITS-full(a)和ITS2(b-j)数据集,维恩图显示了独特和共享的操作分类单元(OTUs)。在c-j中,显示出最强烈冲突的分类群。独特类群和共享类群的相对丰度按比例显示在维恩椭圆区的比例分布。小于 0.2的百分比值未显示。

2全球土壤真菌群落联合数据集

GSMc数据集包括3200个复合样本(127,263个样本),来自108个国家的3084个不同地理坐标的地点,比我们之前的研究高出一个数量级。GF的ITS2数据子集包含10561个条目,代表近95,000个样本和3097个地块(63个国家),具有独特的地理编码,在规模上具有可比性。GF数据集在澳大利亚和中国(多项研究)有更密集的采样。相反,GSMc的样本覆盖率在非洲、拉丁美洲、北欧、东亚、中亚和太平洋岛屿相对较大。这两组数据都显示出加拿大北极地区和印度-马来西亚地区的覆盖率很低。

在排除相对低的测序深度、高霉菌含量和非标准样本后,GSMc数据集可用于宏观生态学分析(表S1)。使用这些数据基本上不需要分类学或分子生态学专业知识。利用生物信息学工作流程对GSMc数据进行特别优化分析,包括使用的特异扩增子、指标和引物。专家利用更新的分类和功能参考数据库提供分类和功能注释。这些基质经过人工处理,去除有问题的样品和可能污染的OTUs。相反,只要作者提出合理的要求,GF数据库就可以使用(虽然显示为完全可通过网络访问),并要求用户根据具体情况对特定的生物信息学数据进行排序。此外,分类注释和功能注释需要特定的处理。在GF中,有问题的样品和索引开关没有被删除,这些可能会影响下游的分析。此外,使用GF进行分析需要考虑多个分析变量,如(子)样本的体积和数量、DNA提取方法、PCR引物和测序技术,很多在数据库中没有详细记录。

3方法的注意事项和限制

在方法上,PacBio Sequel和Sequel II平台提供了高质量的序列数据,支持真菌全长ITS或18S-ITS标记基因分析,这些标记基因有更高的分类分辨率。由于嵌合体、不完全解读和其他人工产物的形成率较高,长标记的分析为初始DNA质量和生物信息学质量筛选提供了更高的标准。正在进行的GSMc数据分析表明,OTU丰度异常高的(>2000 OTUs)少数样品可能包含数百个OTUs的优势物种(如革菌属Tomentella sp.),这可能是因为从协同进化中逃脱。这一现象在对子实体和菌根根尖的分析中得到了证明,目前没有方法解决。

一位匿名专家指出,在土壤表层5 cm处取样是有局限性的。我们认为,真菌的多样性在垂直方向上存在差异,最上面5 cm不能代表整个土壤剖面。但是,我们的采样同时捕获了有机土壤层和表层矿质土壤(沼泽除外),那里是大多数微生物生物量和生物多样性集中的区域。在全球范围内,10或20 cm深度的取样被认为是不可行的,因为(1)在岩石土壤中进行深度取样几乎是不可能的;(2)表层土壤的化学性质与生物多样性的相关性较好,土层越深,对土壤pH值和化学成分的影响就越大。

GSMc数据集的主要限制是他的固定属性,因为他很难集成更多的数据。但是,在使用相同的采样方法和分析设计进行研究时,还会进一步添加完整ITS序列的样本。由于提供了所有的分类和功能注释细节,用户可以方便的在任何分类和功能级别或UNITE SHs级别查看和改进原始注释。通过更高效的聚类和筛选算法以及改进的参考数据库,真菌OTUs的数量将略有变化。

结论

总的来说,GSMc的数据是按照标准化程序获得的土壤真菌分布的最大集合。GSMc的数据库经过了严格的分类、功能特性策划,并补充了原始的、与情节相关的元数据。本研究希望GSMc的数据库能够促进对真菌生物地理学和真菌在宏观生态过程中的作用的理解。

原文链接:https://link.springer.com/article/10.1007/s13225-021-00493-7

猜你喜欢

10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature Cell专刊 肠道指挥大脑

系列教程:微生物组入门 Biostar 微生物组  宏基因组

专业技能:学术图表 高分文章 生信宝典 不可或缺的人

一文读懂:宏基因组 寄生虫益处 进化树

必备技能:提问 搜索  Endnote

文献阅读 热心肠 SemanticScholar Geenmedical

扩增子分析:图表解读 分析流程 统计绘图

16S功能预测   PICRUSt  FAPROTAX  Bugbase Tax4Fun

在线工具:16S预测培养基 生信绘图

科研经验:云笔记  云协作 公众号

编程模板: Shell  R Perl

生物科普:  肠道细菌 人体上的生命 生命大跃进  细胞暗战 人体奥秘  

写在后面

为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。PI请明示身份,另有海内外微生物相关PI群供大佬合作交流。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍未解决群内讨论,问题不私聊,帮助同行。

68d2c857e3d3fe443f356770c88cb641.png

学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”

点击阅读原文,跳转最新文章目录阅读

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值