GigaScience | 港城大孙燕妮组-新型RNA病毒的宿主预测工具

 RNAVirHost:一种基于机器学习通过病毒基因组预测 RNA 病毒宿主的方法

3b611cacb4d53bedd5a9fb74b54f9b40.png

Research Article2024-07-23, GigaScience, [IF 11.8]

原文链接: https://doi.org/10.1093/gigascience/giae059

第一作者:Guowei Chen (陈国威)

通讯作者:Yanni Sun (孙燕妮)

合作作者:Jingzhe Jiang (姜敬哲)

主要单位:

香港城市大学 (Department of Electrical Engineering, City University of Hong Kong, Kowloon, Hong Kong SAR, China )

南海水产研究所 (South China Sea Fisheries Research Institute, Chinese Academy of Fishery Sciences, Guangzhou, China)

- 摘要 -

背景:高通量测序技术已经彻底改变了新型RNA病毒的识别。鉴于病毒是传染性病原体,识别这些新病毒的宿主对公共健康具有重要意义,并为微生物组的动态变化提供了宝贵的见解。然而,确定这些新发现病毒的宿主并不总是简单,尤其是在环境样本中检测到的病毒的情况下。即使对于与宿主相关的样本,将样本来源分配为已识别病毒的宿主也并不总是正确的。由于RNA病毒的高突变率和广泛的多样性,将宿主分配给RNA病毒的过程仍然具有挑战性。

结果:在本研究中,我们介绍了RNAVirHost,这是一种基于机器学习的工具,仅基于病毒基因组预测RNA病毒的宿主。RNAVirHost是一个分层分类框架,在不同的分类级别上预测宿主。我们通过与各种最先进技术的全面比较,展示了RNAVirHost在预测RNA病毒宿主方面的优越准确性。当应用于新属的病毒时,RNAVirHost达到了84.3%的最高准确率,超越了基于比对的策略12.1%。

结论:机器学习模型的应用在预测RNA病毒宿主方面已被证明是有益的。通过整合基因组特征和序列同源性,RNAVirHost提供了一种具有成本效益和高效的宿主预测策略。我们相信RNAVirHost可以大大帮助RNA病毒分析,并为疫情监测做出贡献。

- 引言 -

病毒是依赖于活生物体进行复制和生存的专性细胞内寄生虫。RNA病毒以RNA作为其遗传物质,能够感染多种生物。例如,几种类型的RNA病毒造成了人类历史上最灾难性的大流行病,包括COVID-19、严重急性呼吸综合症、每年的流感等。此外,某些植物和动物RNA病毒对农业和动物部门构成威胁,危害作物生长和牲畜健康,进而导致农业和畜牧业的重大经济损失。目前,宏基因组学和宏转录组学测序已成为发现新病毒的主要方法,因为它消除了在实验室环境中对病毒分离和培养的需求。该方法直接对来自与宿主相关或环境样本的遗传物质进行测序,从而允许识别存在于这些复杂生态系统中的病毒。尽管宏基因组/宏转录组测序技术的应用促进了病毒暗物质的发现,但如何确定新识别病毒的宿主仍然具有挑战性,因为宏基因组测序样本的复杂组成。理解病毒与其宿主之间的相互作用是表征病毒在公共健康、畜牧业、农业等方面作用的基本步骤。为了识别RNA病毒的宿主,不同的检测工具采用了不同的方法,如基于病毒相似度的宿主推断、或基于宿主-病毒间基因交换的宿主预测、或基于序列偏好的宿主预测等方法。但是,它们在预测新型RNA病毒的宿主时难以得到较好的准确率。

在这项工作中,我们介绍了RNAVirHost,一个基于机器学习、针对新型RNA病毒的宿主预测工具。它将RNA病毒contigs作为输入,并预测其潜在的宿主层次。我们在各类样本中测试了RNAVirHost的性能,并将其与其他病毒宿主预测工具进行比较。在交叉分类中,RNAVirHost取得了比其他工具更高的准确率。而且,RNAVirHost在预测来自于全新病毒属的宿主时,也表现出了高精确率。

RNAVirHost是一个分层次的宿主分类框架,并结合了病毒分类、基因组特征和序列同源性等特征,允许仅使用病毒基因组来预测宿主。为了覆盖尽可能多的病毒和宿主,RNAVirHost 接受来自 30 多个目的病毒序列,并在第一层中包含 5 种宿主类型,包括脊索动物 (脊椎动物)、无脊椎动物、植物、真菌和细菌。在第一层获得预测结果后,RNAVirHost 将在第二层进行额外预测,以获得更精确的宿主分类信息。

06a87f804bc0868989623c754f1318d1.png

图1: RNAVirHost的关键模块简图及其工作流程。

- 结果 -

通过交叉验证进行性能评估

在这个实验中,我们收集整理了来自Virus-Host Database和GenBank的、带有标准宿主标签的14500条RNA病毒序列,遵循机器学习中的标准评估策略来检查不同类型的特征和学习模型的性能。有许多类型的特征可能有助于宿主预测。我们首先通过分层5-fold交叉验证评估不同的特征集及其组合。对于每个病毒顺序,我们将病毒按宿主标签分层为不重叠的5份,使用4份训练模型,并在剩余的1 份中测试它们。对每部分数据都进行了评估,并展示了所有数据作为测试时的总体性能。

The comparison among simple feature sets

我们首先基于交叉验证,对比评价了一些简单的特征集合,如Bias(一系列核酸/氨基酸的使用偏好),sBias(更少部分的核酸/氨基酸的使用偏好),BLASTN (best hit),k-mer的频率,氨基酸k-mer的频率,给予理化性质的k-mer频率,基于数字信号处理的结构模式(M-SP)等11个特征。准确率比较如图2(A,B),在不同的病毒目,和不同的宿主分类层次上,使用sBias/Bias的模型和BLASTN表现出较好的分类准确率。

1ba29bccd4a260481466ef1dd3c8c359.png

图2:第 1 层 (A) 和第 2 层 (B) 中不同单一特征集的宿主预测性能 (准确度)。其中,Bias 表示一组基因组特征,而 sBias 表示该特征的一个子集。第 1 层 (C) 和第 2 层 (D) 中不同特征组合的宿主预测性能 (准确度)。其中,sBias_Blast 是 sBias 和 BLASTN 的组合。Bias_Blast 是 Bias 和 BLASTN 的组合。Bias_Blast_Dsp 是 Bias、BLASTN 和 M-SP 的组合。DeepHoF 旨在预测kingdom和phylum级别 (第 1 层) 的宿主,并将其输出转换为相应的标签 (Germ 分数为 Fungi;Human 分数和 Vertebrate 分数为 Chordata)。X 轴:病毒目按大小排序(从大到小)。第 2 层的性能比较加总了第 1 层和第 2 层的错误。在 18 个目中,有 13 个可以进一步分类到第 2 层。因此,我们仅在这 13 个病毒目中关注第 2 层的性能评估。

The comparison among feature combination

进一步,我们讨论不同的特征组合是否能带来更好的分类准确率。我们对比了三种组合sBias_BLASTN (RNAVirHost), Bias_BLASTN,和Bias_BLASTN_Dsp,并额外增加了一个病毒宿主预测工具DeepHoF作为基准。在不同的病毒目中,RNAVirHost实现了93.99%和88.01%(两个宿主层次)的平均分类准确率,超越了其他模型,并且取得了最高的F1分数。对比如图2(C,D)所示。

The comparison among machine learning architectures

此外,我们对比了7个不同机器学习框架,以期望获得较好的性能。XGBoost因此突出表现,被选中作为最终的模型框架。对比如图3所示。

64bec2259d329cd233b68c337edc6a54.png

图3:使用相同特征下、不同学习架构的准确度。

Handling out-of-distribution host labels

由于我们的主要目标是预测宏基因组组装的 RNA 病毒的宿主,我们设计了一个全面的标签列表,其中包括 4 个真核生物界和 1 个原核生物域。然而,考虑到新型 RNA 病毒的不断出现,有些情况下查询的病毒可能会感染标签列表之外的宿主。为了优先考虑精度,我们选择拒绝可能不会感染目标宿主的病毒序列,即使这会导致较低的预测率。为了确定我们的工具和 BLASTN 的预测率和精度之间的权衡,我们分析了预测分数的分布,并针对不同的宿主预测,我们设定了分数阈值来区分不同置信度的预测结果,如和图4所示。我们的分析表明,在预测相同数量病毒时,RNAVirHost 比 BLASTN 实现了更高的精度。因此,我们为用户提供了每个病毒顺序的经验预测分数截止值,使他们能够更有信心地选择预测。这种经验方法使用户能够获得更可靠的预测。

92756a98175c40fd4df45d32a808802b.png

图4:  RNAVirHost与BLASTN在9个病毒目(包含500种以上病毒)中的Precision-Prediction_rate曲线。曲线越靠近右上角,表示模型性能越好。蓝点表示RNAVirHost在预测分数截断值时的性能。红点表示BLASTN使用最佳比对策略的最终预测性能。由于无法将某些查询序列与参考序列比对,预测率低于100%。Diff表示RNAVirHost与BLASTN在相同预测率下的精度差异。

在RNA病毒序列片段上的预测表现

为了评估RNAVirHost在不完整的序列片段上的表现,我们在测试集中将病毒序列按照45%,60%,75%,90%的完整度,随机生成片段化的病毒序列,并预测他们的宿主,实验设置同第一个实验。性能比较如图5,随着序列的完整度下降,所有方法的准确率都有所下降。另外,RNAVirHost在不同完整度上,都取得了较好的准确率。

0d36f57b7084c62a6b329c1a618f1145.png

图5: 第 1 层(A、B)和第 2 层(C、D)中不同特征集的宿主预测性能(准确度)。X 轴:病毒序列的完整性。Y 轴:相应特征集的准确度。

在新型RNA病毒上的预测表现

为了评估RNAVirHost在新型RNA病毒上的表现,我们通过标准的留一法进行检验,并期望该结果具有良好的可泛化性。具体地,针对某一个病毒属,我们将其从训练集中剔除,并将其作为测试数据,预测相关病毒宿主。我们在所有病毒属中重复该过程,并统计一个平均的准确率。总共地,我们的数据中包含来自18个病毒目的448个病毒属。为了验证RNAVirHost从训练数据中习得了有效的分类信息,我们设置了三个对比基准方法:BLASTN、Null 1和Null 2模型。其中Null 1和Null 2模型直接根据训练集中的宿主标签分布,来估计测试急标签。性能对比如图6。

489969667db7cb4b59f658dfe3386d78.png

图6: 留一法实验中不同策略的性能比较。图中显示了所有448个属的平均准确率。

在最近新发现的病毒数据上的预测性能

Performance on real metagenomic data

最后,为了评估RNAVirHost在真实的宏基因组测序数据上的表现,我们收集了20个最近发表的工作,相关病毒序列不被已有的参考数据包含,且来自于脊椎动物(鱼类)、植物、无脊椎动物、和真菌等多个不同类别。具体的数据分布如表1,性能对比如图7。

b44afbb330e18a63a24a0afc2ae4724e.png

表1 新测序数据集的病毒分类群和宿主标签统计数据

0b40298d6a36117b5bb7a1e08ab9bed9.png

图7: RNAVirHost 和 BLASTN 在最近发现的病毒数据集上的宿主预测准确度。在数据集 4 中,L1 和 L2 分别表示第 1 层和第 2 层。

- 讨论 -

在这项工作中,我们收集整理了一个全面的RNA病毒宿主数据库,对比了多种宿主预测的相关特征,开发了一个基于机器学习、针对新型RNA病毒的宿主预测工具,RNAVirHost。该工具仅使用病毒序列即可快速可靠地预测宿主。与在湿实验室中进行费力且昂贵的宿主验证过程相比,RNAVirHost 提供了一种省时省资源的策略。通过整合病毒的基因组性状和序列同源性,RNAVirHost 实现了比基于比对的方法更高的准确性。我们没有专注于脊椎动物相关病毒,而是将宿主范围扩展到植物、真菌和细菌。随着病毒宿主注释的可用性不断提高,RNAVirHost 可以轻松扩展到更多病毒和宿主。我们在Github上提交了相关代码,使用指南,和测试数据,欢迎有需要的研究人员使用https://github.com/GreyGuoweiChen/VirHost

参考文献

Guowei Chen, Jingzhe Jiang, Yanni Sun, RNAVirHost: a machine learning–based method for predicting hosts of RNA viruses through viral genomes, GigaScience, Volume 13, 2024, giae059, https://doi.org/10.1093/gigascience/giae059

- 作者简介 -

第一作者

84c67ed635922adf5aeda76ff3cdc875.png

香港城市大学电机工程系

陈国威

博士生

香港城市大学电机工程系博士研究生,研究兴趣包括宏基因组学分析软件开发,病毒组学,RNA病毒发现,宿主预测等。欢迎关注作者个人Github主页:https://github.com/GreyGuoweiChen。

通讯作者

d934db5514e4eb331390efc7b1c0b334.jpeg

香港城市大学电机工程系

孙燕妮

副教授

香港城市大学电机工程系(Electrical Engineering)副教授,博士生导师。在美国圣路易斯的华盛顿大学(Washington University in Saint Louis)取得计算机系博士学位后在密西根州立大学计算机系担任助理教授和副教授(with tenure)。2018年加入香港城市大学。主要研究方向是生物信息学,序列分析,宏基因组学,和病毒基因组学。具体的研究课题,发表的论文,以及实验室的位置请参加作者个人主页:https://yannisun.github.io/。

宏基因组推荐

本公众号现全面开放投稿,希望文章作者讲出自己的科研故事,分享论文的精华与亮点。投稿请联系小编(微信号:yongxinliu 或 meta-genomics)

猜你喜欢

iMeta高引文章 fastp 复杂热图 ggtree 绘图imageGP 网络iNAP
iMeta网页工具 代谢组MetOrigin 美吉云乳酸化预测DeepKla
iMeta综述 肠菌菌群 植物菌群 口腔菌群 蛋白质结构预测

10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature

系列教程:微生物组入门 Biostar 微生物组  宏基因组

专业技能:学术图表 高分文章 生信宝典 不可或缺的人

一文读懂:宏基因组 寄生虫益处 进化树 必备技能:提问 搜索  Endnote

扩增子分析:图表解读 分析流程 统计绘图

16S功能预测   PICRUSt  FAPROTAX  Bugbase Tax4Fun

生物科普:  肠道细菌 人体上的生命 生命大跃进  细胞暗战 人体奥秘  

写在后面

为鼓励读者交流快速解决科研困难,我们建立了“宏基因组”讨论群,己有国内外6000+ 科研人员加入。请添加主编微信meta-genomics带你入群,务必备注“姓名-单位-研究方向-职称/年级”。高级职称请注明身份,另有海内外微生物PI群供大佬合作交流。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍未解决群内讨论,问题不私聊,帮助同行。

点击阅读原文

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值