NAR：查询未培养病毒基因组的综合生态和进化框架IMG/VR v3

最新推荐文章于 2025-01-08 10:29:08 发布

刘永鑫Adam

最新推荐文章于 2025-01-08 10:29:08 发布

阅读量2.7k

点赞数

文章标签：大数据机器学习人工智能深度学习 python

原文链接：https://mp.weixin.qq.com/s?__biz=MzUzMjA4Njc1MA==&mid=2247502791&idx=1&sn=06d6b0c9540fdce1fb68d0393c216ded&chksm=faba2176cdcda8609bf9102168b277ab755a614e92958b09916c815817ff3c173f1025ba0da9&scene=126&&sessionid=0

版权

IMG/VR v3：一个用于查询未培养病毒基因组的综合生态和进化框架

IMG/VR v3: an integrated ecological and evolutionary framework for interrogating genomes of uncultivated viruses

翻译：周之超@UW-Madison

Nucleic Acids Research [IF: 16.97]

DOI：https://doi.org/10.1093/nar/gkaa946

发表日期：2020-11-02

第一作者：Simon Roux¹, David Paez-Espino¹

通讯作者：Simon Roux (sroux@lbl.gov)¹, Nikos C. Kyrpides(nckyrpides@lbl.gov)¹

合作作者：I-Min A. Chen,Krishna Palaniappan,Anna Ratner,Ken Chu,TBK Reddy,Stephen Nayfach,Frederik Schulz,Lee Call,Russell Y. Neches,Tanja Woyke,Natalia N. Ivanova,Emiley A. Eloe-Fadrosh

主要单位：¹美国能源部联合基因组研究所(DOE Joint Genome Institute, Lawrence Berkeley National Laboratory, Berkeley, CA 94720, USA)

摘要

病毒是地球上所有生态系统和微生物群的有机组成部分。通过对其细胞宿主的普遍感染，病毒可以重塑微生物群落结构并推动全球营养循环。在过去的十年中，从基因组和宏基因组中识别的病毒序列为自然界中的病毒基因组多样性提供了一个前所未有的视角。自2016年以来，IMG/VR数据库提供了从(宏)基因组中获得的最大的病毒序列集合。在这里，我们提出了IMG/VR的第三个版本，由18,373个培养的病毒基因组和2,314,329个未培养的病毒基因组(UViGs)组成，与之前的版本相比，序列总数几乎增加了两倍。这些序列聚类为935,362个病毒操作分类单位(vOTU)，包括188,930个有两个或更多成员的单位。IMG/VR中的UViG现在被报告为单一的病毒片段、集成的前病毒或基因组分箱(bin)，并通过新的标准化流程进行注释，包括使用CheckV进行基因组质量评估、反映最新ICTV的分类学分类和扩大的宿主分类学预测。新的IMG/VR界面使用户能够根据基因组特征和/或序列相似度有效地浏览、搜索和选择UViG。IMG/VR v3可在 https://img.jgi.doe.gov/vr 登入，基础数据可在 https://genome.jgi.doe.gov/portal/IMG_VR 下载。

引言

病毒占据了地球上所有的生物群落，并且已知感染了整个生命树上的所有生物，包括动物、植物、原生动物、真菌、细菌和古菌。虽然人们对病毒多样性的全部范围和它们对环境的影响知之甚少，但病毒被广泛认为是健康和疾病的关键媒介，也是微生物组的关键调节器。现在，从世界海洋到酸性温泉、人类肠道和融化的永久冻土等广泛的生态系统中，科学家们已经描述了病毒，并评估了它们的影响。总体而言，这些研究强调了病毒裂解对重塑微生物群落和营养循环的巨大影响，病毒作为横向基因转移媒介影响细胞生物的长期进化的巨大潜力，以及病毒感染期间细胞途径的根本性改变。

病毒缺乏保守的单拷贝通用标记基因，如经常用于检测、识别和分类细菌和古细菌的16S核糖体RNA基因，或经常用于调查真核生物的线粒体细胞色素c氧化酶基因。因此，未培养的病毒不能通过扩增子测序方法轻易地全面识别。相反，未培养的病毒多样性主要是通过宏基因组学来探索的，即直接从样品中提取的DNA或RNA的鸟枪式测序。特别是最近测序技术和生物信息学分析的进步，现在可以从宏基因组中恢复大的片段甚至完整的病毒基因组。病毒序列可以从专门针对环境样品中病毒部分的宏基因组(即 “病毒组”)中收集，也可以从非目标样品中收集，即使后者往往是由群落中的细胞成分主导的。作为补充的是，在宿主细胞中的病毒基因组，无论是整合在宿主染色体中还是染色体外，也可以从全基因组鸟枪测序数据中成功恢复。

未经培养和分离的病毒序列，即未经培养的病毒基因组(Uncultivated Virus Genomes)或UViG，其至关重要性现在已经成为不可否认的事实。UViG通常用于(i)分类和探索病毒序列，(ii)估计病毒分类群在样本和生物群落中的分布，(iii)通过计算机宿主预测评估病毒：宿主网络，以及(iv)通过分析基因内容研究病毒功能潜力。反过来，UViG的综合数据库和分析框架，如IMG/VR，是实现这些研究的基础性资源。

IMG/VR的第一个版本是一个收集从IMG/M数据库托管的基因组和宏基因组中鉴定的病毒序列的数据库，于2016年发布，包括264,413条序列。三年后的第二个版本，包括了735,112条序列，同时改进了分类法，自动识别高质量的基因组，以及根据序列相似度查询数据库的新搜索功能。在这里，我们介绍了该数据库的第三个版本，它是目前公开的最大的病毒基因组集合，总共有2,332,702个基因组。这个基因组集合现在由多种来源汇编而成，包括已发表的研究，这些研究描述了迄今为止在数据库中代表性不足的特定病毒组或类型的UViG。IMG/VR UViGs使用IMG管道进行功能注释，并使用新的CheckV工具评估其质量。IMG/VR UViGs的病毒分类现在反映了最新的ICTV框架，并根据与培养物基因组和宏基因组组装的基因组的序列相似性以及与预测的CRISPR间隔的匹配性提供计算机宿主预测。最后，一个重新设计的界面允许使用序列或注释查询，快速和直观地浏览和搜索IMG/VR数据库。

目前，有许多关于物种和群落水平重建代谢网络的定量软件和平台。它们主要基于建立包含底物利用和产物生成反应的微生物代谢模型。基于单个微生物模型，可以进一步预测整个群落的代谢表型。这些方法允许基于给定的环境条件和预测的微生物表型，为预测和从而操作群落代谢提供机制基础。因此，他们更关注于阐明群落代谢的工作原理和连接反应的潜在代谢网络，以为代谢物生产、工业应用或药物发现等获得更好的产出。

结果

多种来源的未培养病毒基因组被用于建立IMG/VR数据库

Multiple sources of uncultivated virus genomes are used to build the IMG/VR database

IMG/VR数据库包含一个庞大而广泛的集合，其中包括从21,075个公共基因组、宏基因组和已发表的数据集中汇编的2 332 702个分离物和未培养的病毒基因组(UViGs)(图1A和B)。这些UViG的绝大部分(85%)是通过对公共IMG/M宏基因组的系统搜索确定的，使用的是检测噬菌体和古细菌病毒序列的标准方法。然后，这个数据集被补充了定制搜索的结果，重点是特定的病毒或contig类型，包括inoviruses、giant viruses、virophages、prophages和预测的完整病毒基因组，以及额外的病毒参考序列，包括来自NCBI Viral RefSeq和GenBank的19,062条参考序列和254 220条以前发表的UViG。这些序列中的一小部分目前在IMG/M数据库中没有，因此只包括在可下载的IMG/VR文件中，而不能在网络界面上获得(见下文“数据可用性”)。总的来说，有2,033,220个UViG可以通过IMG/VR网络界面进行浏览、搜索和分析，以下将指定为“MG/VR-online”子集。

图 1 IMG/VR v3序列的起源、数量和注释概述

Overview of the origin, number, and annotation of IMG/VR v3 sequences

a IMG/VR v3 序列的起源和注释。三列代表三种类型的数据，单独的框代表单独的搜索或参考数据库(参见材料和方法)。数据集根据其主要序列类型进行着色，即单个病毒重叠群为绿色(标准搜索)、黄色(自定义搜索)和灰色(其他参考)，基因组分箱为蓝色，原病毒为红色。来自每个搜索或参考数据库的序列总数显示在每个框中。未在 IMG 中发布的 UViG 来自全球海洋病毒 2 数据集、肠道病毒数据库和宏基因组肠道病毒数据集；

b IMG/VR 数据库中的序列数与 NCBI 中病毒基因组的数量随时间的变化。主图比较了两个数据库中的序列总数。NCBI 中病毒基因组的总数的获得，通过查询 GenBank 并排除有大量几乎相同基因组可用的人类病毒(流感 A/B 和 HIV)。插图显示了 IMG/VR 中非冗余高质量序列(即 HQ vOTU)的数量相比与 NCBI Viral RefSeq 中病毒基因组的数量；

c IMG/VR v3 中每种基因组类型的比例；

d IMG/VR v3.1 中基于 CheckV的高质量基因组部分(估计完整性≥90%)，以及估计完整性≥50% 和 < 50% 的基因组片段；

e IMG/VR v3 中带有和不带有宿主预测的序列比例。

IMG/VR包括数以万计的高质量基因组

IMG/VR includes tens of thousands of high-quality genomes

IMG/VR v3数据库主要由宏基因组contig组成，被预测为完全是病毒性的(95%)，而5%的序列被确定为整合的原病毒，即在一个contig上包括病毒和宿主区域(图1C)。所有UViG的基因组质量是根据用CheckV计算的完整性估计以及检测技术上的假象如concatemers来估计的。总的来说，22%的IMG/VR v3 UViG被预测为≥50%的完整性，10%被预测为≥90%的完整性，即根据MIUViG标准被认为是“高质量的”(图1D)。自IMG/VR的最后一个版本(2018年7月1日发布)以来，UViG的总数增加了一倍多，非冗余高质量UViG的数量，即包括至少一个高质量基因组的病毒OTU(vOTU)数量(见下文)，增加了5倍(图1B)。这一增长速度既反映了公共宏基因组数量和规模的增加，也反映了宏基因组组装和病毒序列检测工具的改进。

UViGs在vOTU中的全球聚类揭示了无处不在和普遍存在的未培养的病毒群体

Global clustering of UViGs in vOTUs reveals ubiquitous and prevalent groups of uncultivated viruses

所有的IMG/VR UViG，即IMG/M序列和非IMG参考序列，使用既定的标准cutoff(95% ANI和85% AF，图1B)被聚类为935,362个病毒OTU(vOTU)。总的来说，188,930个vOTU包括两个或两个以上的成员(不包括完全重复的，见材料和方法)，而746,432个是单体。这个32%的单体比例低于IMG/VR以前的版本(IMG/VR v1和v2分别为45.2%和36.4%)，但表明仍有很大一部分病毒的多样性有待探索(图2A)。

图 2 IMG/VR v3序列的聚类和注释结果

Clustering and annotation results of IMG/VR v3 sequences

a IMG/VR 序列的累积曲线显示了针对不同序列数(x 轴)观察到的 vOTU 数(y 轴)。总共对序列进行了 50 次随机改组(灰色点)，并将平均值绘制为橙色曲线。对应于 IMG/VR 三个版本的序列数量在图中标出；

b IMG/VR v3 序列的物种分类分布，按界水平等级为每个质量等级单独显示。Heunggongvirae 界尤其包括 Caudovirales 科，Bamforvirae 包括包含大部分 NCLDV 的 Megaviricetes 纲，Loebvirae 包括丝状噬菌体的 Inoviridae 科；

c IMG/VR v3 序列的宿主物种分类预测，按每个质量层分开显示。对于面板 B 和 C，标记为“未知完整性”的组包括 UViG，无法使用 CheckV 对其进行可靠的完整性估计，例如因为组装工件(参见材料和方法)。

这种vOTU聚类也表明存在一些无处不在、高度流行的病毒。值得注意的是，13个最大的vOTU各包括>1000个UViG(范围：1043-3606)，并且都与人类肠道和废水样本有关。这些vOTU中只有两个包括参考基因组：vOTU_043225包括最初在Faecalibacterium prausnitzii基因组中被鉴定为原生型的Faecalibacterium phage FP_Mushu，并被认为与炎症性肠病患者有关，而vOTU_002247包括 “Uncultured crAssphage “参考序列，它最初从病毒宏基因组组装中获得，被鉴定为人类肠道病毒群中高度流行的一员。同时，所有13个最大的vOTU包括>100个高质量的基因组。这凸显了在高采样环境(人类肠道微生物组)中最普遍的病毒仍然缺乏分离的代表，只能通过宏基因组学来识别。

Caudovirales目成员在IMG/VR数据库中占主导地位

Members of the Caudovirales order dominate the IMG/VR database

单个UViG的分类是基于单个蛋白质与Viral RefSeq参考序列的关系，如果Viral RefSeq中没有密切相关的参考序列，则基于选定的标记基因(见材料和方法)。这种直接的分类对1 081 998个UViG是可能的。对于那些仍然未分类的UViG，我们认为其中一些序列可能太短，没有显示足够的(标记)基因来进行直接分类，但可能聚集在vOTU中，可以从中得出分类学的分类。我们确认单个UViG的分类对83.6%的合格vOTU在科水平上是一致的(148 155个vOTU中的123 955个有>1个分类成员，不包括巨型病毒MAG)，因此在有vOTU分类成员的情况下，将未分类的序列隶属于最低共同祖先(LCA)。这种方法使我们能够对另外337,383个UViG进行分类。

绝大多数分类的IMG/VR UViGs(91.8%)隶属于Caudovirales目，其次是Megaviricetes(4.9%)、Microviridae(0.7%)和Tubulavirales(0.7%；图2B)。这与以前的报告相一致，强调Caudovirales是整个生物群落中最普遍和最频繁检测的病毒类群。正如可以预期的那样，与小的基因组片段(完整度<50%，57.2%有分类，图2B)相比，完整度高(≥50%)的基因组往往被更多地分类(73.6%有分类)。然而，24.1%的预测完整度≥90%的高质量UViG仍未被分类，可能包括全新的病毒分类群的代表。

多特征方法将IMG/VR序列与广泛的假定宿主的多样性联系起来

Multi-feature approaches link IMG/VR sequences to a broad diversity of putative hosts

IMG/VR UViG的宿主分类预测是基于(i)UViG和假定宿主基因组之间的长(≥2 kb)序列相似性，以及(ii)UViG和预测的CRISPR间隔体之间的序列相似性(见材料和方法)。与病毒分类类似，96.4%的合格vOTU(34 016个vOTU中的32 791个有宿主预测的成员)的宿主预测在属的层面上是一致的。因此，属一级的宿主预测是用LCA方法在vOTU内传播的。在所有的UViG中，有15.3%获得了宿主预测，然而这主要是由UViG的完整性决定的：在估计完整度为50%或以上的UViG中，有38.9%可以预测宿主分类，而在估计完整度为<50%的UViG中，有8.1%可以预测(图2C)。大部分(85.8%)的宿主分类学预测可以实现到属的级别。

总的来说，根据目前的IMG/M分类法，IMG/VR UViGs与广泛的宿主多样性有关，涵盖了1481个假定的宿主属和92个假定的宿主门类。然而，这些宿主的分布并不均匀，64.1%的宿主预测只限于五个科。Clostridiales、Bacteroidales、Enterobacterales、Lactobacillales和Pseudomonadales(图2C)。这可能反映了在提取病毒的样本类型、宿主参考基因组数据库以及用于将病毒与宿主联系起来的方法方面存在的综合偏差。可能需要更多的技术发展来更全面地识别微生物多样性中的病毒：宿主对。

IMG/VR UViGs来自于不同的生物群落和地理位置

IMG/VR UViGs are derived from diverse biomes and geographic locations

IMG/VR v3数据库中的序列来自5582个基因组和15493个宏基因组。后者来自广泛的地理位置，横跨所有大陆和海洋(图3A)，并代表了IMG/VR中使用GOLD五级生态系统框架分类的生物群落的巨大多样性(图3B)。

图 3 IMG/VR-online序列的地理和环境分布

Geographical and environmental distribution of IMG/VR-online sequences

a 基于 IMG/M 中原始样本位置的 IMG/VR v3 序列概览图(地图中不包括当前不在 IMG/M 中的参考序列)。两个插图(底部)显示具有高样本数的两个区域的放大视图。彩色样本表示地理位置组太近而无法在当前缩放级别中单独表示，根据位置数量着色，也在圆圈中表示。放大后，各个位置将使用蓝色图钉显示，UViG 的数量以红色表示。单击图钉会打开一个新窗口，其中包含指向该位置的数据集和 UViG 的链接；

b 四种主要生物群落的每种样本类型的 IMG/VR v3 序列的比例。饼图基于所有 UViG，无论质量如何，即 n = 1 592 032 水生序列、n = 122 133 陆生序列、n = 487 433 宿主相关序列和 n = 75 228 工程序列。

总的来说，IMG/VR的UViG主要来自三种样本类型：海洋(44.0%)、淡水(20.8%)和人类相关的(15.0%)。当排除小的基因组片段和多余的UViG时，也观察到同样的趋势：计算至少有一个成员估计≥50%完整的vOTU，三个主要的样本类型是海洋(29.4%)，人类相关的(28.8%)和淡水(12.7%)。这表明，这些样本中大量的UViG不是由于片段组装和相同基因组的冗余组装造成的假象，而是这些环境是IMG/VR v3数据库中可用的病毒基因组多样性的主要来源。

IMG/VR提供了对数百万UViG的直观数据浏览

IMG/VR provides intuitive data browsing of millions of UViGs

可以通过重新设计的界面来浏览在线的2 033 220个UViG(https://img.jgi.doe.gov/vr/)。在主页上，“浏览UViG”菜单列出了不同的参数，可用于探索和选择IMG/VR数据的子集。用户可以使用新的交互式树状图根据生态系统、分类学或预测的宿主分类学分类来浏览UViG(**图4A**)。树状图上方提供了当前所选组别的摘要，包括该组别中UViG的数量和百分比，同时还有一个搜索栏，允许用户在树状图中搜索特定(部分)术语。另外，同样的数据也可以通过选择层次分类中的特定等级来浏览表格。点击所选组别将提供相应的UViG的表格，包括基本特征，可以导出为EXCEL电子表格(**图4B**)。表中的UViG标识符链接到各个UViG页面，包括详细信息和注释(**图4C**)。

图 4 浏览和选择IMG/VR在线序列的一个子集

Browsing and selection of a subset of IMG/VR-online sequences

a 基于预测的宿主物种分类法的 IMG/VR 在线 UViG 的树状图表示示例。类似的树状图可用于物种分类和生态系统分类。插图显示了如何使用主 IMG/VR 菜单访问此树状图；

b UViG 表结果对应于面板 A 中的搜索；

c 通过单击结果表中的 UViG 标识符获得的 UViG 详细信息页面示例。

用户还可以像IMG/VR v2那样，分别使用交互式世界地图和人体图，根据地理位置或人体部位浏览UViG(图3A)。通过这些地图选择的UViG然后使用与树状图选择相同的表格来展示(图4B)。最后，UViG现在可以根据特定pfam结构域的检测或UViG长度等特征进行浏览。对于后者，组被定义在固定的间隔上，当用户选择单个组时，其范围逐渐缩小，直到所选择的UViG的数量合理到可以在表格中显示(≤5000)。

IMG/VR界面包括新的搜索功能

IMG/VR interface includes novel search capabilities

除了新的UViG浏览外，IMG/VR v3界面还实现了新的搜索功能。首先可以通过单个UViG或scaffold标识符来搜索UViG。与浏览一样，搜索结果是一个表格，列出了每个UViG的基本特征，并允许用户导航到每个UViG的详细页面。按标识符搜索也接受逗号分隔的列表，允许用户检索一组特定的UViG。

UViG也可以根据属性的组合进行搜索(图5)。可搜索的属性包括长度、基因数、估计完整性、vOTU标识符、生态系统、分类学、预测的宿主分类学、VPF的百分比和pfam域的检测的任何组合。搜索条件使用 “AND ”逻辑运算符进行组合，即只有当UViG满足搜索表格中指定的所有条件时才会被选中。搜索结果通过可下载的UViG表显示(图5B)，用户可以从该表导航到各个UViG的详细页面(图5C)。

图 5 基于UViG属性的组合，搜索IMG/VR-在线序列

Searching IMG/VR-online sequences based on a combination of UViG attributes

a 基于生态系统、宿主分类预测、物种分类分类和质量等多个属性的 IMG/VR 在线 UViG 搜索示例。插图显示了如何使用主 IMG/VR 菜单访问此搜索页面。选定的搜索参数以红色标出，宿主分类单元是使用内置搜索字段(红色虚线矩形)选择的；

b UViG 表结果对应于面板 A 中的搜索；

c 通过单击结果表中相应的 UViG 标识符获得的 UViG 详细信息页面示例。

与IMG/VR的序列比较和在IMG/VR内的序列比较

Sequence comparison to and within IMG/VR

与IMG/VR以前的版本一样，IMG/VR v3中有两种基于序列的搜索。首先，用户可以根据blastn(对于核苷酸序列)或blastp(对于蛋白质序列)将自己的序列与IMG/VR在线的UViG进行比较。通过一个交互式表格提供总结性的blastn结果，同时提供完整的结果文件供下载。用户序列也可以使用相同的搜索表格与IMG/M CRISPR间隔体数据库进行比较。

UViG也可以根据共同功能域的检测进行比较。这个工具可以通过单个UViG页面上的“比较UViG ”部分获得，目的是提供一个快速的方法来识别与当前选择的基因内容相似的UViG。UViG之间的相似性是基于基因在pfam、VOG和VPF数据库中的隶属关系，并使用基因内容相似性分数对每一对UViG进行测量(见方法)。结果通过表格或交互式网络显示，边缘长度与相似度值成正比，节点按UViG属性着色，使用户能够探索最初选择的UViG附近的病毒序列空间。

大量下载

Bulk download

整个IMG/VR v3数据库可在 https://genome.jgi.doe.gov/portal/pages/dynamicOrganismDownload.jsf?organism=IMG_VR (可通过主页上的 “下载IMG/VR数据库”)免费下载。可下载的文件包括contigs和预测蛋白的fasta文件，一个列出所有UViG及其主要属性(如生态系统和分类学关系)的主表，以及一个列出UViG和假定宿主之间所有联系的宿主预测表。fasta文件和表格包括IMG/M提供的UViG，以及IMG/VR中用作参考的外部UViG(见方法)。

IMG/VR下载门户包括IMG/VR数据库的现在和过去的版本，用数据库发布日期来识别。与本稿中描述的IMG/VR v3(第5版)相对应的文件可在 “IMG_VR_2020-09-10_5 “文件夹下获得。

讨论

自2016年首次发布以来，IMG/VR作为从宏基因组组装的最大的病毒基因组数据库继续扩大，并被研究界广泛利用。与最初的版本相比，新的IMG/VR v3数据库包括的序列总数是其16倍，符合MIUViG标准被归类为 “高质量”(即≥90%的完整性和非冗余性)的序列数是其20倍。值得注意的是，IMG/VR v3包括从IMG提供的广泛的基因组和宏基因组中确定的序列，但也包括从其他以前发表的UViG集合中确定的序列。鉴于收集新的未培养病毒基因组的速度不断加快，我们预计IMG/VR的指数级增长将在可预见的未来继续。这将特别得益于技术的改进，如长读长测序和新的生物信息学方法，这些方法有望从宏基因组中获得更长、更完整的病毒基因组。

IMG/VR的新版本包括一个更新的数据库，使用最近开发的工具(如CheckV)进行新的分析以估计基因组的完整性，以及重新设计的用户界面以适应UViG数据的规模和多样性。除了病毒contig，IMG/VR数据库现在还包括原病毒(即宿主contig中的病毒区域)和基因组bin，这两个功能对于探索病毒圈的特定区域，如丝状噬菌体和巨型病毒，都是至关重要的。引入了新的浏览和搜索功能，为用户提供了一套工具来识别大型IMG/VR数据库中的感兴趣的序列。这些新工具与更广泛的IMG/M平台的功能配对，包括“scaffold carts”和“scaffold sets”，使进一步的分析和相应数据的输出变得容易。

虽然IMG/VR代表了探索和表征全球病毒圈的独特和前所未有的资源，但对关键功能的改进有望提高其可用性和实用性。首先，虽然大多数UViG在分类学上被归类，但其中大部分被归入一个大的“未知的Caudovirales”组。随着ICTV逐步完善该组的分类，以及分类工具的改进，我们希望IMG/VR未来版本中的分类能够更加丰富。第二，宿主预测仍然只适用于少数UViG，限制了可能的分析范围，并阻碍了微生物组模型中病毒多样性的全面整合。我们预计，宿主参考数据库的改进，特别是通过从宏基因组中恢复基因组和CRISPR阵列，再加上在单一宿主预测中有力地整合多种信号的新方法，最终将使UViG和微生物宿主之间有更广泛的联系。最后，随着更多的病毒生态基因组学工具和基础设施的开发，我们计划在不同的平台上进一步整合IMG/VR数据库，包括IMG、iVirus和KBase，以扩大可以对这些数据进行分析的范围，并使其易于被广大社区所使用。

完整的 IMG/VR 数据库可在 https://genome.jgi.doe.gov/portal/pages/dynamicOrganismDownload.jsf?organism=IMG_VR 上下载。IMG/VR-在线序列也可以在https://img.jgi.doe.gov/vr/ 浏览、搜索和分析。

材料和方法

序列来源和选择标准

Sequence origin and selection criteria

IMG/VR v3(第5版)中的序列从6个主要来源收集。

2 028 310条序列是通过使用Earth’s Virome协议挖掘公共IMG/M宏基因组(截至2019年12月15日)获得的，其中包括最小contig大小为5 kb(以下简称‘EVP’)。

30 759个序列是之前通过挖掘公共IMG/M宏基因组(2019年4月1日下载)，根据直接末端重复(DTR)以及用VirFinder v1.1和自定义标记基因进行病毒预测获得的环形序列(≥1 kb)(以下简称‘CheckV DTR’)。

9445个Inovirus序列源于对公共基因组和宏基因组的搜索，以特定的Inovirus标记基因和使用自定义随机森林分类器分析的基因内容特征为基础，搜索Inovirus序列(≥500 bp)。这包括染色体外基因组和整合的proviruses(以下简称‘Inovirus’)。这一搜索是在2018年进行的，包括了IMG中没有的141个序列。

12 498个序列源自2014年进行的使用VirSorter v1.0 搜索公共NCBI RefSeq/WGS基因组的整合和染色体外的原病毒(≥800 bp)(以下简称‘原病毒’)。这项研究针对的是活跃的原病毒和裂解病毒，因此所有缺乏病毒标志基因或病毒基因富集的预测，以及所有只显示病毒基因富集和缺乏病毒标志基因的原病毒检测，都被抛弃了。其中，5474个不是从IMG/M获得的。

1475个序列(≥5 kb)来自于2018年进行的公共IMG/M宏基因组的定制搜索，以Virophage标记基因为基础(以下简称‘Virophage’)。

47 356个序列源于2018年对公共IMG/M宏基因组进行的核细胞质大DNA病毒(NCLDVs)，即巨型病毒的定制搜索(以下简称’巨型病毒’)。由于NCLDV的基因组比其他病毒大得多，所以这些序列的鉴定和恢复采用了不同的方法，包括基因组分选步骤，以确定属于同一基因组的contigs。这47 356条序列对应于总共2059个NCLDV基因组。

此外，一组293 759个参考病毒序列被纳入IMG/VR数据库，以加强病毒操作分类单位(vOTU)水平的分类和宿主预测(见下文)。这些序列包括分别来自NCBI Viral RefSeq和GenBank的12 182和6880个序列，来自CheckV数据库的20 234个参考序列，以及来自GOV2、GVD和MGV(https://github.com/snayfach/MGV_catalog)数据集的254 463个中等质量、高质量和完整基因组。GOV2包括从海洋病毒群中获得的UViG，而GVD和MGV序列来自人类肠道病毒群(GVD)和宏基因组(MGV)。

通过CheckV处理EVP、Inovirus和Prophages数据集，以识别和删除病毒contig的任何宿主衍生区域。对于EVP和prophages，CheckV清理的病毒序列短于5kb和1kb(分别)被丢弃。这一清理步骤没有用于巨型病毒或噬菌体序列，因为这些序列已经作为其原始分析的一部分被清理。在多个数据集中检测到的序列(如Inovirus和Prophages数据集中都包含的proviruses)被识别出来，在最后的IMG/VR数据库中只保留一个拷贝。

经过清理、汇编和核对，最终的IMG/VR数据库(以下简称 “IMG/VR-db”)由2 332 702个不同的UViG组成，包括通过IMG/VR网络界面提供的2 033 220个序列(截至2020年8月25日，以下简称“IMG/VR-online”)。整个IMG/VR数据库(即IMG/VR-db)可在https://genome.jgi.doe.gov/portal/IMG_VR(版本#5)下载。

vOTU聚类

vOTU clustering

整个数据集(2,332,702个序列)按照MIUViG指南被聚类为vOTU(95% ANI-平均核苷酸一致性和85% AF-对齐部分)。简言之，用以下选项计算all-vs-all blastn(v2.5.0+)：-task megablast, -max_target_seqs 25000, 和 -perc_identity 90。然后，使用定制的Python脚本，根据累积的blast hits计算所有序列对之间的ANI和AF，并使用贪婪的聚类方法生成病毒OTU(‘vOTUs’)，序列按长度递减排序。这样产生了933,352个vOTU。

巨型病毒基因组的聚类需要单独的方法，因为它们是由多个contigs组成的，在基于ANI的contig聚类中可能被分割成不同的聚类。相反，使用dRep v2.6.1将2059个巨型病毒bin(模块dereplicate，选项-ignoreGenomeQuality)分组为2010个vOTU。然后，将这些基于基因组bin定义的vOTU与之前基于单个contigs ANI定义的vOTU进行核对，方法如下：对于所有基于contigs的vOTU，包含一个或多个来自巨型病毒bin之一的序列，观察vOTU成员的分类情况。如果大多数序列在分类学上被归类为NCLDV(即核细胞病毒)，则该基于contig的vOTU中的所有序列都包括在基于基因组bin的vOTU中。否则，只有来自巨型病毒基因组bin的序列被移到基于基因组bin的vOTU中，而其他的则形成一个单独的基于contig的vOTU。

最后，为建立IMG/VR数据库而挖掘的一些数据集包括生物或技术上的复制(如同一原始宏基因组的多个组合)，这可能导致序列的重复。为了避免人为地夸大vOTU的大小，具有≥99.8%的ANI和≥99.9%的AF，或≥99.9%的ANI并由同一原始样本组装的序列对被视为重复序列，只计算一次。

基因组质量评估

Genome quality assessment

CheckV v0.4.0通过对基因组完整性的估计来评估基因组质量，但巨型病毒、Inovirus和噬菌体序列除外(见下文)。对于每个UViG来说，如果基于CheckV AAI的完整性估计被认为是中等或高置信度的，则使用该估计，或者如果有的话则使用基于HMM的估计。对于巨型病毒数据集，我们从原始文章中获得了完整性的估计，它是根据单拷贝标记基因的检测来计算的。对于Inovirus和噬菌体数据集，我们根据这些类型的病毒已知的最大长度，即Inovirus的30 kb和噬菌体的35 kb，计算出另一种完整性估计。当(i)没有CheckV估计的完整性，或(ii)CheckV估计的完整性小于50%时，使用这个替代估计值代替CheckV的值，因为我们发现它对部分基因组更可靠。

通过搜索三种类型的假象，对基因组进行了进一步的质量检查。首先，所有具有≥50个模糊碱基(即 “N”)的片段被标记为 “低质量”(n = 21 668个序列)。这些可能来自于不理想的组合或具有未知长度间隙的多个contigs的scaffolding。这些组合的完整性通常不能被准确估计，因此被设置为 “未知”。同样，所有末端重复占序列长度≥20%的contigs，或者被确认为是完全的回文序列的contigs，都被标记为 “concatemers”，这代表了低质量的组装(n=1959个序列)。最后，几个序列被进一步确定为来自细胞而不是病毒基因组。这是预料之中的，因为许多病毒序列检测方法可以将一些真核生物基因组序列错误地识别为病毒。这些序列是根据CheckV的污染信息从EVP中自动检测出来的，是具有≥5个宿主标记的contig或者宿主标记的数量是病毒标记的两倍以上(n = 6102)，以及编码16S和/或23S rRNA基因的contig，通常与相邻的衰减的原核病毒区域相连(n = 232)。此外，对于所有的vOTU，其种子序列被确定为基于这种非病毒基因含量信号的假定污染物，所有的vOTU成员也被从IMG/VR数据库中删除(n = 2930 vOTU)。

基因组质量按照MIUViG标准进行分配。具有直接末端重复的基因组，即预测为完整的“环状”基因组，以及根据CheckV估计为≥90%和≤120%完整的基因组，并且没有标记为低质量或“concatemers”的基因组，被认为是高质量基因组。完整度<90%的基因组被认为是 “基因组片段”，而估计完整度>120%的基因组的质量被设定为“不确定(完整度>120%)”。

分类法

Taxonomic classification

两种互补的方法被用于IMG/VR序列的分类。首先，使用 diamond v0.9.25和“blastp -evalue 1e-5 -query-cover 50 -subject-cover 50 -k 10000 ”选项将IMG/VR序列中预测的蛋白质与NCBI Viral RefSeq蛋白质v200进行比较。对于IMG/VR序列，如果有≥30%的蛋白质与Viral RefSeq有明显的匹配，则根据单个蛋白质的最佳匹配(≥50%的多数规则)获得一个共识的归属。

其次，根据对VOG数据库v97(http://vogdb.org)中确定的588个标记基因的检测，确定分类。使用hmmsearch v3.2.1将来自IMG/VR序列的预测蛋白质与588个选定的VOG HMM profile进行比较，选项为“-E 1.0e-02”，单个命中的最小分值为40，最大E值为1e-05。如果检测到多个相互冲突的标记，则根据检测到的单个标记获得一个共识的分类(简单多数规则)。

对于基于RefSeq和VOG的分类，使用的参考分类法是2019年ICTV发布，即包括从域到属的等级。此外，获得非singleton vOTU的最低共同祖先(LCA)，并将其作为该vOTU尚未分类的任何成员的分类。

基于分析的宿主预测

In silico host prediction

所有在IMG/M细菌和古细菌基因组中被鉴定为原病毒的UViG都与相应的IMG/M宿主分类有关。对于其他的UViG，主要用两种方法将它们与假定的宿主联系起来：与微生物基因组的序列相似性，以及与IMG/M CRISPR间隔体的匹配。对于与微生物基因组的匹配，使用blastn(选项’-task megablast -evalue 0.001 -max_target_seqs 25000 -perc_identity 90’)，将所有IMG/VR序列与IMG/M中的95 012个细菌和古细菌基因组(2020年6月4日发布)以及来自地球微生物组(GEM)数据集的52 515个细菌和古细菌基因组bin进行比较。对于基因组bin(GEM)，排除了主要是病毒性的contig(即与IMG/VR序列的一致性≥90%，超过宿主contig≥50%)，因为这些contig可能会被错误地分类。同样，所有来自IMG/M基因组的contig与来自RefSeq的病毒基因组、巨型病毒或噬菌体的≥90%的同一性和≥50%的长度匹配也被排除，因为这些通常是全基因组序列数据集的污染物(如PhiX174基因组)。然后，根据覆盖≥2 kb的病毒和(假定的)宿主序列的核苷酸同一性≥90%的匹配结果进行宿主预测。当获得与不同宿主的多个匹配时，使用每个等级的80%共识规则来预测宿主分类。应用于NCBI Viral RefSeq(v200)基因组，这种方法在目、科和属的级别上分别产生了96.2%、95.3%和91.2%的正确宿主预测，与以前的基准一致。

对于CRISPR的匹配，SpacePharer 2.fc5e668被用来比较所有IMG/VR序列和来自IMG/M基因组的CRISPR间隔体数据库。使用blastn(v2.5.0+)和选项“-task blastn-short -evalue 1 -dust no -word_size 7”对SpacePharer获得命中的单个病毒基因组和CRISPR间隔物进行了进一步的重新排列，因为SpacePharer提供的排列并不总是延伸到间隔物的全长。对于每一对病毒序列和假定的宿主基因组(即一组CRISPR间隔物)，当(i)至少一个命中在整个间隔物长度上有0或1个不匹配(“CRISPR(接近)相同”)或(ii)两个或更多的命中在整个间隔物长度上有≥80%的相同(CRISPR多个部分)时，进行宿主预测。对于每个病毒序列，然后根据所有“CRISPR(接近)相同”预测的80%的共识得出一个基于CRISPR的预测，或者如果没有这样的预测，则根据“CRISPR多个部分”预测的80%的共识。对NCBI Viral RefSeq(v200)基因组应用这一管道表明，对于“CRISPR(接近)相同”的预测，97.5%、94.9%和88.2%的预测在目、科和属上是正确的；对于“CRISPR多个部分”的预测，88.5%、84.1%和70.9%的预测在目、科和属上是正确的，与先前公布的基准一致。

接下来，为每个vOTU获得一个预测的宿主分类学，作为基于原病毒的预测(如果有的话)或基于CRISPR的预测的LCA。该LCA被用作这些vOTU中尚未与特定宿主预测相关的任何序列的推定宿主分类。最后，噬菌体序列与假定的“宿主”相关联，具体如下：对于在巨型病毒基因组bin中也被确认的噬菌体UViG，相应的基因组bin和分类被用作噬菌体UViG的“宿主预测”。在IMG/VR界面上，还根据以下优先级显示了总结的宿主分类：已知基因组中的原病毒或在巨型病毒基因组bin中检测到的噬菌体，与宿主基因组的匹配(如果属级可用)，与CRISPR间隔物的匹配(如果属级可用)，与宿主基因组的匹配(如果属级以上可用)，与CRISPR间隔物的匹配(如果属级可用)，以及相应vOTU的宿主分类学(如果可用)。

基于基因内容和/或序列相似性的类似UViG的鉴定(IMG/VR-online)

Identification of similar UViGs based on gene content and/or sequence similarity (IMG/VR-online)

IMG/VR网络界面上有两种序列比较的方法。首先，用户可以使用核苷酸或蛋白质序列作为输入查询IMG/VR数据库。序列比较是用blast+2.6.0的默认参数计算的，用户可以选择一个特定的E值截止点(从1e-50-10)。IMG/VR UViG之间的第二种比较方法可以通过IMG/VR网络界面(UViG详细页面的“类似UViG”标签)进行。这种比较是基于UViG基因对PFAM、标记VOG(http://vogdb.org，见上文)和VPF(病毒蛋白家族)HMM谱系的归属。PFAM的隶属关系来自IMG/M数据库，标记VOGs来自分类管道(见上文)，而对于VPFs，使用hmmsearch v3.2.1对所有IMG/VR UViG预测的蛋白质与VPF数据库进行比较，选项为“-E 1.0e-02”，最小分值为40，单个点击的最大E值为1e-05。对于每一对UViG，通过计算基因组A中预测的cds与基因组B中相应的PFAM、VOG或VPF命中的数量，并除以基因组A中预测的cds与PFAM、VOG或VPF域命中的总数，计算出基因内容的相似性分数，然后对基因组A计算出基因组B的基因内容相似性分数，最后的配对相似性计算为这两个分数的平均值。如果在任何UViGs中没有附属于PFAM、VOG或VPF的基因，则相似性分数设置为0。用户可以选择从0.2到0.9的最小分界线(应用于相似性)，成对相似性可以以表格或交互式网络的形式可视化。

作者简介

Simon Roux

自述

在美国能源部联合基因组研究所，我领导病毒基因组学小组，在那里我们使用(主要是)精心设计的“组学工具”探索微生物病毒及其对生态系统的影响。我们目前的项目包括病毒多样性和病毒的研究：土壤和淡水环境中的宿主相互作用，以及开发新的生物信息学工具和实验方案，以探测和表征未培养的病毒。我们还协助 JGI 宏基因组计划的用户进行分析，包括识别病毒序列、功能注释、物种分类学分类等。

我研究的长期目标是了解病毒的生态和进化驱动因素：天然微生物群落中的宿主动态。这项研究涉及从分子到生态系统规模的实验和计算方法的混合，试图解决诸如“病毒如何跨环境传播和适应？”、“病毒如何接管和重新编程微生物细胞？”等基本问题，以及“病毒感染如何改变生态系统过程？”。
网址: https://simroux.github.io/

编译：周之超威斯康星麦迪逊大学(UW-Madison)

编辑：马腾飞南京农业大学

审核：刘永鑫中科院遗传发育所

Reference

Simon Roux, David Páez-Espino, I-Min A Chen, Krishna Palaniappan, Anna Ratner, Ken Chu, T B K Reddy, Stephen Nayfach, Frederik Schulz, Lee Call, Russell Y Neches, Tanja Woyke, Natalia N Ivanova, Emiley A Eloe-Fadrosh, Nikos C Kyrpides. IMG/VR v3: an integrated ecological and evolutionary framework for interrogating genomes of uncultivated viruses, Nucleic Acids Research. Volume 49, Issue D1, 8 January 2021, Pages D764–D775. https://doi.org/10.1093/nar/gkaa946

系列教程：微生物组入门 Biostar 微生物组宏基因组

专业技能：学术图表高分文章生信宝典不可或缺的人

一文读懂：宏基因组寄生虫益处进化树

必备技能：提问搜索 Endnote

文献阅读热心肠 SemanticScholar Geenmedical

扩增子分析：图表解读分析流程统计绘图

16S功能预测 PICRUSt FAPROTAX Bugbase Tax4Fun

在线工具：16S预测培养基生信绘图

科研经验：云笔记云协作公众号

编程模板: Shell R Perl

生物科普: 肠道细菌人体上的生命生命大跃进细胞暗战人体奥秘

写在后面

为鼓励读者交流、快速解决科研困难，我们建立了“宏基因组”专业讨论群，目前己有国内外5000+ 一线科研人员加入。参与讨论，获得专业解答，欢迎分享此文至朋友圈，并扫码加主编好友带你入群，务必备注“姓名-单位-研究方向-职称/年级”。PI请明示身份，另有海内外微生物相关PI群供大佬合作交流。技术问题寻求帮助，首先阅读《如何优雅的提问》学习解决问题思路，仍未解决群内讨论，问题不私聊，帮助同行。