NAR:vRhyme - 对宏基因组中的病毒基因组进行分选的生信工具

f187e23d422a23ec42a0301297d2bf93.png

vRhyme 能够从宏基因组中分箱病毒基因组

vRhyme enables binning of viral genomes from metagenomes

翻译:周之超@UW-Madison

Nucleic Acids Research [IF: 16.97]

DOI:https://doi.org/10.1093/nar/gkac341

发表日期:2022-05-11

第一作者:Kristopher Kieft1,2

通讯作者:Karthik Anantharaman (karthik@bact.wisc.edu)1

合作作者:Alyssa Adams, Rauf Salamzade, Lindsay Kalan

主要单位:

1,2美国威斯康星大学麦迪逊分校(Department of Bacteriology, University of Wisconsin–Madison, Madison, WI, USA; Microbiology Doctoral Training Program, University of Wisconsin–Madison, Madison, WI, USA)

摘要

基因组分箱对于表征细菌、古细菌,甚至是宏基因组中的真核生物都至关重要。然而,目前还没有针对病毒的方法。我们开发了vRhyme,一个用于构建病毒宏基因组组装基因组(vMAGs)的快速而精确的软件。vRhyme利用单样本或多样本覆盖率效应大小在scaffolds之间进行比较,并采用监督机器学习来识别核苷酸特征的相似性,将其编入加权网络的迭代和精炼分箱。使用模拟病毒组,我们显示了vRhyme在构建更完整和未受污染的vMAGs方面与现有分箱工具相比的优秀表现。当应用于来自人类皮肤的10,601个病毒scaffolds时,vRhyme推进了我们对皮肤留驻病毒的理解,突出表现在识别了一个由22个scaffold组成的Herelleviridae vMAG,以及另一个编码硝酸盐还原酶代谢基因的vMAG,这两个病毒基因组代表了分箱后接近完整的基因组。vRhyme将提供对未培养的病毒基因组进行分类的范例,并有可能改变基于宏基因组的病毒生态学

引言

病毒和噬菌体(统称为病毒)基本上是所有生态系统中的普遍成员。病毒与它们的宿主形成了连续的共生互动体,从致死宿主寄生关系到基本的相生作用。众所周知,这些相互作用会影响生物地化和营养循环过程、人类健康、基础设施和工业以及生态系统群落的动态变化。由于人们对病毒学的兴趣不断增加,我们对于以前未知的病毒圈成员、病毒编码遗传功能的范围、已知的病毒多样性以及病毒基因组大小极限的这些认知都在不断地扩大。

宏基因组测序是一种识别、认识、了解、甚至利用病毒基因组编码信息的手段。大多数宏基因组将组合成许多代表部分基因组序列的短片段(支架scaffolds或片段contigs)。分箱的过程就是将scaffolds组合成一个假定的基因组,称为宏基因组组装的基因(MAG)。有了MAG编码的信息,而不是单个scaffold,就可以对代谢潜力、系统发育、分类和群落内相互作用做出更有力的推断。

许多软件工具已经被开发出来,用于将细菌、古生物和真核生物的宏基因组scaffolds分为MAGs。这些工具采用了广泛的方法,主要集中在四核苷酸频率和scaffolds间read覆盖率差异的比较上。这些工具中的很大一部分,大部分是为细菌和古菌量身定做的,也依赖于识别微生物的单拷贝基因,以便为构建的分箱提供完整性和污染度的信息。

相反,病毒scaffolds通常没有被分箱。处理宏基因组中复杂的、所知甚少的病毒scaffolds,往往会带来不同于微生物分箱的计算挑战。不对病毒进行分箱的一个理由是,它们的基因组相对于细胞生物来说很小,而且假设大多数scaffolds代表了一个可识别的基因组的大部分或全部。对于大多数病毒宏基因组的目标——dsDNA病毒来说,基因组大小一般在20kb-200kb之间,最大的病毒为500kb-2000kb。由于大多数组装的宏基因组中的大多数scaffolds的长度都低于20 kb,因此可以估计,一个支架很可能不会代表整个病毒基因组。事实上,之前的基准研究表明病毒往往不能组装成一个单一的scaffold。对病毒基因组进行分箱的另一个困难是,病毒并不编码通用的单拷贝或标记基因,因此很难为所有病毒建立一个标准化的方法。

尽管有大量的细菌和古菌的分箱工具,但目前还没有专门针对病毒分箱的工具存在。在这里,我们提出了vRhyme,它结合了基于监督机器学习的序列特征组成分类,以及read覆盖值效应度大小的比较,以优化来自宏基因组的病毒基因组(病毒MAGs,或vMAGs)的分箱。vRhyme利用了病毒基因组的独特特征,包括根据对病毒很少编码冗余基因的观察,对蛋白质冗余进行评分,从而克服了缺乏单拷贝基因的问题。vRhyme能够对来自不同家族、宿主和来源环境、不同的基因组片段化状态和较大基因组长度范围的病毒进行分类。在对vRhyme进行基准测试时,我们发现,与其他分箱软件相比,它在合成和自然宏基因组中分选病毒scaffolds时速度快、包容性强、准确性高、计算要求低。当应用于人类皮肤宏基因组时,我们表明vRhyme能够更全面地分析一组个体中的共享病毒和病毒特征,并可能更好地再现自然系统。vRhyme是由Python编写,可在 https://github.com/AnantharamanLab/vRhyme 免费获取

结果

vRhyme概述和工作流程

vRhyme的工作流程分为五个步骤:read覆盖率处理、序列特征提取、有监督的机器学习、迭代网络聚类和bin评分(图1)。vRhyme的基本输入是组装好的scaffolds或要分选的contigs(以下简称scaffolds),设定的最小尺寸为2kb。为了获得最佳结果,应该只使用病毒组scaffolds或预测的病毒scaffolds作为输入,尽管vRhyme可以使用整个宏基因组的输入。最初的去重步骤是可选的,以去除冗余的输入scaffolds。vRhyme在输入多个样本(即覆盖率文件)时表现最佳,以获得更稳健的覆盖率共现估算结果;在输入单个样本时软件仍然可以正常运行,但其性能会略有下降。通过覆盖率组成去除统计学上不相似的scaffolds,并通过核苷酸特征的相似性来比较剩余的潜在配对。使用两个监督下的机器学习模型(决策树和神经网络),总共七个核苷酸和基因特征被用来将配对分类为相似与不相似。在这一步之后,根据read覆盖率和核苷酸特征的相似性,在支架之间建立潜在的连接。这些连接被用来创建加权网络,使用KMeans聚类法将其进一步细化为基因组分箱。read覆盖率比较、核苷酸特征机器学习和加权网络细化的整个过程是在几个分箱迭代中并行进行的。vRhyme有15个内置的预设阈值,用于Cohen’s d、机器学习模型概率和网络边缘加权。使用的预设阈值组数等于分箱迭代数。所有的预设阈值及其层次结构的清单都在附件中提供。根据蛋白质冗余度对所有迭代中的每个分箱进行评分,作为代表污染度的一种指标;并通过被分箱的序列数量、生成的分箱的数量和冗余度指标选择最佳分箱迭代。该最佳分箱迭代中的分箱将与相关元数据一起报告,包括scaffolds成员数和蛋白质总冗余度。如果需要人工检查和选择不同的迭代,我们也同样保存了其他备选的分箱迭代结果。

图 1 vRhyme的工作流程和方法图

db0d6fae10312d07daeb542801e93d29.png

通过使用单个或多个样本的read覆盖效应大小差异对scaffolds进行配对比较(左上),然后进行序列特征距离比较(右上)。用边缘权重代表归一化的覆盖率效应大小和序列特征相似性的监督机器学习概率,生成推测分箱的网络聚类的多次迭代(中间)。通过KMeans聚类来完善这些分箱,在确定蛋白质冗余和评分后,确定单次迭代中的最佳分箱结果(底部)。

分箱质量的评估

为了评估vRhyme,我们首先根据参考数据集对vRhyme进行了基准测试,并将其性能与几个常用的分箱工具进行了比较,这些工具都是之前用于微生物分箱。由于对微生物单拷贝基因的依赖,许多分选工具和包装软件都不适合病毒分选。我们能够成功地将vRhyme与MetaBat、VAMB、CONCOCT2和BinSanity在从宏基因组数据整理得到的9个数据集上进行比较。这9个数据集由999个非冗余和假定完整的病毒基因组组成,这些基因组被分割成4,554个不同长度的序列片段。尽管这些片段来自于机器学习训练数据集中没有的数据集,但我们首先验证了这些片段是不同的,不会导致与过度拟合的机器学习模型有关的偏差。根据BLASTn 70%的相似性,4,554个片段中只有5%的片段在机器学习模型训练数据集中有体现,除了4个片段外,其他的片段都来自同一个人类肠道数据集。

共使用了17个不同的评价指标,包括召回率(recall)、精确度(precision)、准确率(accuracy)、特异性(specificity)和F1得分等五个传统指标(图2)。这五个传统指标是根据来自相同或不同源基因组的分箱片段的真阳性、真阴性、假阳性和假阴性率计算的。请注意,机器学习模型没有单独进行基准测试,因为性能是根据整个管道来衡量的。vRhyme产生了最高的F1分数,即精确度和召回率的调和平均值,在所有九个数据集中平均为0.87。MetaBat2和VAMB表现相当,F1得分分别为0.81和0.82,但重要的是VAMB由于输入大小的要求,只成功地对9个数据集中的3个进行了分箱。vRhyme同样产生了最高或等于最高的平均精确度(0.94)、准确性(0.90)和特异性(0.96)。与MetaBat2和VAMB相比,vRhyme同样产生了最大的平均召回率(0.80)。CONCOCT和BinSanity产生了最大的平均召回率(分别为0.96和0.91),但却牺牲了精确性(分别为0.45和0.44)。至少对于病毒基因组来说,CONCOCT和BinSanity被认为是不合适的分箱选项。VAMB在有足够输入序列的3个数据集上有合适的性能,但是VAMB可能不是许多病毒基因组分箱应用的选择,因为它需要许多输入序列(如几万个)才能达到最佳性能。根据这些指标,vRhyme在病毒基因组的分选中表现优异,但于MetaBat2相当,没有明显优越的性能。

图 2 vRhyme与MetaBat2、VAMB、CONCOCT和BinSanity的基准测试性能指标比较

5397cd3c262e36fdeaa3e3399e580227.png

每个图表代表了9个不同数据集的结果,除了VAMB只显示了三个数据集。总共有999个非冗余的基因组,被人为地分割成4554个序列片段。对于一些图,在1.0处显示了一条虚线,以表示最佳性能。CONCOCT和BinSanity没有显示在基因组比分箱(genome-to-bin)比率图上,以获得更好的视觉效果;它们各自产生的平均比率大于2.0。

其余的12个评价指标是根据完整的基因组和单独的分箱来计算的。这些指标包括评估基因组是否被放入单一或分开的分箱,以及分箱内是否包含来自单一或多个源基因组的片段。这些指标能够更好地显示vRhyme与其他工具相比的独特性能。也就是说,vRhyme能够更好地减少以下情况:将基因组放入分开的分箱,将来自多个源基因组的片段放入一个分箱,以及将代表整个基因组的圆形scaffold分箱。重要的是,这并不以vRhyme减少片段召回为代价。为了结合这些指标,我们创建了一个基因组分数和分箱分数,将召回率和精确度作为F1分数的替代。就基因组分数和分箱分数而言,vRhyme(0.89和0.96)分别优于或相当于MetaBat2(0.77和0.93)和VAMB(0.90和0.93)。同样,需要注意的是,VAMB只成功地对9个数据集中的3个进行了分箱。对于CONCOCT和BinSanity,基因组分数(分别为0.74和0.70)和bin分数(分别为0.48和0.18)反映了将不同基因组“过度分箱”到一个分箱的倾向。

此外,我们评估了vRhyme分箱与输入的、未分类的基因组的比较情况。首先,使用CheckV,我们显示了分箱与未分箱的序列片段在基因组完整性估计方面的明显变化。vRhyme能够再现输入基因组的完整性(图3a)。在输入基因组的长度与分箱的对比中也有类似的观察结果支持了这一点(图3b)。此外,我们估计了输入基因组、片段和分箱的vMAGs的分类结果。我们发现识别片段分类属性的能力明显下降,这一点通过分箱得到救回(图3c)。在vMAGs中可识别的差异是缺乏Microviridae科。然而,这是可以预期的,因为Microviridae科的基因组大小(<10 kb)通常会导致接近完整的scaffolds,适当地保持不分箱。最后,我们评估了vRhyme是否能区分源scaffolds。为了做到这一点,9个数据集中的每一个都被分箱,但scaffolds没有被分割、保持原样。预期的结果是,没有一个环形scaffolds应该分在一起。虽然vRhyme对11%的全部scaffolds进行了分箱,但与MetaBat2的65%的分箱相比,还是有明显的进步(图3d)。

图 3 用vRhyme分选对基准数据集的影响

77ad8bd309fcea8609da1d907df2cce2.png

对于a-c,比较了假定完整的未分割的输入基因组、生成的序列片段、被分箱的序列片段和vRhyme分箱(vMAGs)。

a,使用CheckV估计基因组的完整性;

b,序列或vMAG核苷酸长度。对于a-b,每个点代表一个序列或vMAG;

c,使用自定义分析脚本估计科水平的分类。“未分配”代表分类到一个有未分配科的组,“模糊”代表平等分配到多个科(通常是Caudovirales),“未知”代表无法进行预测;

d,评估vRhyme、MetaBat2和VAMB对完整基因组的分箱。预期完整的基因组应该保持未分选的vOTU或UViG。

在人类皮肤宏基因组中发现vMAGs

为了证明vRhyme能够帮助宏基因组分析和发现,我们将vRhyme应用于270个人类皮肤宏基因组。预测的病毒来自一个34人的人群数据集,每个人有8个身体部位(Af, Al, Ba, Na, Oc, Tw, Um, 和Vf)的采样。从所有的个体中,确定了10,601个病毒scaffolds,并将八个不同的身体部位分别归类为849个vMAGs,代表2,794个病毒scaffolds。虽然有冗余蛋白的分箱可能实际上是一个单一的基因组,但我们忽略了所有具有大于一个冗余蛋白的vMAGs进行分析,产生了代表2413个病毒scaffolds的762个vMAGs,剩下的8188个是分散的病毒scaffolds(图4a)。这些分箱平均由3.2个支架组成。我们总共确定了七个分箱,代表独立的身体部位,在至少30个个体中存在(图4b)。我们确定了两个具有独特特征的分箱,并进行了详细检查。

图 4 分箱改善并扩大了对人类皮肤病毒的分析

9fac60838bc81c2d3e229f257803543b.png

a,分箱前后所有个体的原始病毒scaffolds数量的比较;

b,每个个体的7个普通分箱的覆盖率热图;

c,Herelleviridae参考病毒phiSA_BS2(外圈)和Tw bin 8(内圈)的基因组可视化和排列;

d,vRhyme Vf bin 113与最接近的参考病毒Siphoviridae分离物ctiXA4(BK057074.1)的比对。四个scaffolds中的每一个都是通过tBLASTx相似度独立排列的;

e,由vConTACT2生成的所有输入病毒scaffold的代表性聚类,四个Vf bin 113 scaffolds用绿色标示。这四个绿色scaffolds之间没有任何联系;

f, 由vConTACT2生成的所有vRhyme分箱和未分箱病毒scaffolds的部分网络,vMAG分箱标为橙色,Vf bin 113标为绿色。
e,f的完整网络图可在附件中找到。

第一个这样的分箱包含22个成员(Tw bin 8),比预期的平均值要多,并与一个参考的Herelleviridae噬菌体(葡萄球菌噬菌体phiSA_BS2)对齐(图4c)。感染皮肤上大量葡萄球菌的Herelleviridae科可能与皮肤生态学和疾病高度相关。在分类之前,22个成员中的每一个都被CheckV识别为低质量的基因组片段,单个完整性估计在1.8%到7.1%之间。这些片段平均长度为5.2kb,范围为2.6kb至10.0kb。分级后,最终的分箱长度为115 kb,并通过CheckV鉴定为高质量的基因组,完整性为100%。参考的噬菌体基因组是143 kb,这表明该分箱的真正完整性可能是80%至100%。皮肤宏基因组的所有CheckV结果可在附件中找到。

第二个感兴趣的分箱包含4个成员(Vf bin 113),其中一个编码硝酸盐还原酶(narG)的辅助代谢基因(AMG)(图4d)。narG被定位为scaffold上的最后一个基因,传统的AMG验证方法会建议将AMG作为可能的细菌污染而放弃掉。然而,分箱结果有助于验证AMG是否可能是正确的。第一条证据是在四个分箱的scaffolds上都没有任何整合酶或溶原性病毒的特征,这表明AMG不是由宿主整合造成的细菌污染。其次,将所有四个scaffolds与最近的参考基因组(Siphoviridae分离物ctiXA4)进行比对显示,AMG位于基因组内两个scaffold的交汇处,而不是基因组末端。CheckV将每个成员确定为低质量,其完整度值为11.6%至28.0%,分别为7.4kb至16.8kb的scaffolds。该分箱被估计为中等质量,完整度为74.9%,或根据最接近的参考基因组的长度其完整度为92%。此外,四个scaffolds中的一个scaffold缺乏特征性的病毒注释以帮助人工检查或分析,如系统发育,但与含有病毒标志和核苷酸复制注释的其他支架进行分箱,能够验证该支架是病毒性的,并将其置于更好的基因组背景中进行分析。因此,分箱不仅能够产生一个更完整的序列,而且能够验证一个未被研究的、具有生态学意义的AMG的存在。使用vConTACT2,我们对具有完整分选结果的分箱(低污染分箱加上未分选的scaffolds)进行聚类(图4f),此外还对所有单独的、未处理的病毒scaffolds进行聚类(图4e)。对单个scaffolds进行分类,将该分箱的所有四个scaffolds放入一个与其他组不同的集群中,但正如预期的那样,该分箱的所有scaffolds之间都没有联系。分组的结果产生了更多的scaffolds和vMAGs之间的联系,并更好地将该分箱置于进化和群落关系的背景中。完整的vConTACT2网络可以在附件中找到。

讨论

将病毒scaffolds分装成vMAGs并不常见,大多数或所有的病毒都是作为独立的病毒操作分类单位(vOTUs)或未培养的病毒基因组(UViG)存在的。我们认为对UViG采用更多的以基因组为中心的方法,将使创新的发现成为可能,如构建大型或高度异质的病毒基因组,这些病毒基因组通常会组装成不同的片段。在这里,我们提出了vRhyme,并证明了 “一个支架,一个病毒”的惯例可能会对病毒圈及其病毒群落成员的相互作用产生有偏好性的解释。为了解决这个问题,vRhyme使用一种以病毒为中心的方法将病毒基因组分成vMAGs,这种方法与现有的分箱软件不同,是一种易于使用和可重复的命令行工具。

除了在人工和真实的宏基因组上的性能基准研究,我们通过对人工片段化的NCLDV、Megaphage、大型真核病毒、crAssphage、活性和非活性整合的原病毒以及微生物基因组进行分箱,评估了vRhyme的稳健性。然而,明显的例外是在分离同一宿主基因组中的多个非活性(非正在复制)原病毒以及对非病毒基因组进行分箱时遇到困难,尽管后者是一个可以预期的难点。此外,我们展示了vRhyme在使用全球海洋病毒组2(GOV2)和农业土壤病毒组对大型复杂数据集进行分箱时的效率和可能的精确性。总的来说,我们希望随着vRhyme作为一个可靠的分箱工具的出现,vMAG的构建将成为一种普遍的做法,并被纳入现有的病毒生态学、宿主关联、群落相互作用、进化和生物地球化学循环的研究框架中。

在vMAGs的分箱中,有几个重要的考虑因素是不同于微生物MAGs的。首先,任何不包含在分箱(vMAG)内的病毒scaffolds都应该被视为UViG。这符合“一个支架,一个病毒”的惯例,这可能是许多病毒基因组的真实情况,特别是环形和完整的基因组。在这里介绍的皮肤数据集中,23%的病毒scaffolds被分到低污染的vMAG中,剩下的77%仍应作为分散的scaffolds在分析中使用。其次,整个宏基因组可以作为vRhyme的输入,或其他病毒分箱工具的输入,但需要注意的是,非病毒序列的分箱污染可能会更高,但还有一个好处是可能会更少地遗漏病毒scaffolds。例如,许多噬菌体的基因组是以基因盒式排列的——结构、核苷酸复制、裂解和辅助基因形成了不同的区域。如果这些区域组合成独立的scaffolds,病毒鉴定可能只识别scaffolds的一部分,如漏掉一个辅助基因区域,而分箱可能将它们全部放入一个vMAG中。第三,准确的read覆盖谱是准确分箱的关键。这对所有依赖差异覆盖率的分箱软件来说都是如此,对区分来自单一宿主群体的整合原病毒的分箱尤其如此。

通讯作者简介

d0a31879a6bb4e70cfdcdbfd2edb2a1e.png

Karthik Anantharaman, Ph.D., 是威斯康星大学麦迪逊分校细菌学系的助理教授他的实验室研究微生物和病毒生态学。Anantharaman在印度孟买长大,2007年在印度卡纳塔克国家理工学院获得土木工程技术学士学位。之后,他于2014年在密歇根大学获得地球和环境科学博士学位研究热液喷口的微生物学,导师是Gregory Dick博士。在加州大学伯克利分校Jillian Banfield博士的博士后训练期间,他利用高分辨率宏基因组学技术研究了陆地次表层的微生物生物地球化学过程。Anantharaman获得了多个奖项,包括美国国家科学基金会Early Career奖,美国国立卫生研究院杰出研究者(早期阶段研究者-MIRA)奖和美国微生物学会ASM Microbiology环境研究早期职业奖。Anantharaman的跨学科研究项目采用计算、实验室和in situ实验相结合的方式,来研究理解支撑海洋和淡水环境以及人类健康中生物地球化学转化的微生物和病毒过程。随着人们越来越认识到病毒和噬菌体是所有微生物组的组成部分,Anantharaman和他的小组正在开发和应用最先进的计算方法和模型系统,以便能够研究自然界中的病毒生态和相互作用

Reference

Kristopher Kieft, Alyssa Adams, Rauf Salamzade, Lindsay Kalan, Karthik Anantharaman. vRhyme enables binning of viral genomes from metagenomes. Nucleic Acids Research (2022). https://doi.org/10.1093/nar/gkac341

猜你喜欢

10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature Cell专刊 肠道指挥大脑

系列教程:微生物组入门 Biostar 微生物组  宏基因组

专业技能:学术图表 高分文章 生信宝典 不可或缺的人

一文读懂:宏基因组 寄生虫益处 进化树

必备技能:提问 搜索  Endnote

文献阅读 热心肠 SemanticScholar Geenmedical

扩增子分析:图表解读 分析流程 统计绘图

16S功能预测   PICRUSt  FAPROTAX  Bugbase Tax4Fun

在线工具:16S预测培养基 生信绘图

科研经验:云笔记  云协作 公众号

编程模板: Shell  R Perl

生物科普:  肠道细菌 人体上的生命 生命大跃进  细胞暗战 人体奥秘  

写在后面

为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。PI请明示身份,另有海内外微生物相关PI群供大佬合作交流。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍未解决群内讨论,问题不私聊,帮助同行。

3ef34337d3378c35c64dc75bb508c44b.png

学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”

点击阅读原文,跳转最新文章目录阅读

  • 0
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值