Bioinformatics & BIB|港城大孙燕妮组用于识别和分析宏基因组数据中噬菌体序列的网站...

PhaBOX: 用于识别和分析宏基因组数据中噬菌体序列的网站

PhaBOX: a server for identifying and characterizing phage contigs in metagenomic data

d10497a8a9e28ab7f0359cd8879a7a3d.png

网站链接:https://phage.ee.cityu.edu.hk/

第一作者:Jiayu SHANG (商家煜)

通讯作者:Yanni SUN (孙燕妮)

合作作者:Cheng PENG (彭诚)

主要单位

Department of Electrical Engineering, City University of Hong Kong, Hong Kong, China

- 导 读 -

噬菌体通过感染宿主细菌在调节微生物组的组成/功能方面发挥关键作用。由于缺乏用于噬菌体识别和分析的集成软件,很大一部分“病毒暗物质” 是被发现的新型噬菌体。宏基因组测序已成为发现噬菌体的常用手段。然而,高多样性和有限的参考基因组对从宏基因组数据中识别噬菌体序列片段(phage contigs)构成了重大挑战。在这项工作中,我们开发了一个名为 PhaBOX 的网络服务器,以准确识别和分析宏基因组数据中的噬菌体。PhaBOX 集成了我们之前发布的工具(PhaMer、PhaTYP、PhaGCN 和 CHERRY,分别用于噬菌体鉴定、生活方式预测、分类学分类和宿主预测)为用户提供噬菌体鉴定和分析的一站式服务。所有这些工具都结合了基于序列比对的策略和深度学习模型的优势,以学习不同的序列的特征,包括蛋白质组成、序列同源性和蛋白质关联等。基于我们对高度分化的噬菌体、短序列、模拟宏基因组和真实宏基因组数据的严格测试,这些工具的性能优于已知的噬菌体分析工具。

- 网站简介 -

PhaBOX 提供噬菌体鉴定和分析。输入是包含组装序列(contigs)的 FASTA 文件。输出是 CSV 文件,其中包含已识别的噬菌体、它们的taxa分类、生活方式和宿主。PhaBOX 还提供了基本特征的可视化。PhaBOX 自 2022 年 10 月 31 日起上线。从11月25日到12月13日,PhaBOX收到了273份来自世界各地学术团队提交的任务,他们主要来自中国大陆和香港、美国、英国、日本、德国和澳大利亚。

工作提交

d0f09f8641eab8e608de5159fe5f1ff9.png

图1:提交页面1

在提交页面中:

1. 在红框中选择你要运行的程序:

  • PhaMer:从宏基因组组装序列(contigs)中鉴定噬菌体

  • PhaGCN:家族级分类法分类

  • PhaTYP:噬菌体的生活方式预测 

  • CHERRY:宿主预测

  • PhaBOX:在一个集成环境中运行上述工具。与单独运行工具相比,它会花费更少的时间。 

2. 在绿色框中粘贴或上传您的 DNA 序列(contigs)。序列应为 FASTA 格式。请单击示例序列按钮以获取说明。

3. 在蓝色框中设置分析序列的最小长度设置阈值。如果要使用默认参数,则将其留空。该程序将只处理长于阈值的序列。

3. (可选)在黄色框中选择是否要通过电子邮件通知您。如果是,请打开按钮并粘贴您的电子邮件地址。否则,直接提交您的任务并记住作业 ID。

281119ff29b85ded295042c2e9fca7d9.png

图2:提交页面2

结果输出

提交作业后,网页将跳转到结果页面并显示您提交的作业 ID。一个示例作业 ID 如下所示。请记住您的工作 ID 以查找您的结果。如果您在提交页面选择了电子邮件通知,该作业ID将会通过电子邮件的方式通知您。我们使用的邮箱是:phage.cityu@gmail.com。如果您在提交工作后没有收到我们的电子邮件,您可能需要检查它是否在您的垃圾邮箱中。如果您希望收到我们的通知,请将电子邮件添加到白名单中。

932ba823343ee7ec064a350644cf5bff.png

图3:结果页面

总体而言,此示例页面上有四个部分(红框/绿框/蓝框/黄框/紫框)。每个部分指的是不同的功能,如下所列:

  • 红框:噬菌体序列(contigs)的预测结果和同源性可视化。

  • 绿框:taxa分类结果和序列与已知噬菌体关系的知识图可视化。知识图是 PhaGCN 中使用的基于序列相似性的网络。详细信息可以在网页中的Wiki -> PhaGCN 中找到。

  • 蓝框:CHERRY 中使用的多模态图中的宿主预测结果和噬菌体与宿主关系的可视化。多模态图由不同类型的噬菌体-噬菌体和噬菌体-细菌关系信息组成。详细信息可以在网页中Wiki -> CHERRY 中找到。

  • 黄色框:包含完整预测的可下载文件(csv 格式)。此外,如果用户感兴趣,我们还提供了中间文件,例如同源性比对结果和完整的网络信息(知识图/多模态图)。我们提供的网络信息为大多数基于网络的可视化工具的标准输入格式,例如 Gephi、Cytoscape 和 networkD3。用户可以使用它们在本地可视化完整的知识图或多模态图。

  • 紫色框:预测结果饼图。

(绿色框仅在运行 PhaBOX 和 PhaGCN 时存在,而蓝色框仅在运行 PhaBOX 和 CHERRY 时存在。)

9e680e2a1c0880000258e45c9a7e1f0f.png

图4:网站的可视化样例图

54196d2aea7dbc299de38cd2bf759b55.png

图:完整的网络可视化结果样例(通过下载网页黄色框中提供的网络信息在本地使用Gephi进行可视化)

相关工具的基础实验结果-

PhaBOX 背后的算法经过同行评审并发布(DOI 后缀:btab293;bbac182;bbac258;bbac487)。基于我们对高度分化的噬菌体、短序列、模拟宏基因组和真实宏基因组数据的严格测试,这些工具的性能优于已知的噬菌体分析工具。以下我们将简单介绍各个工具和在标准数据集上的结果。其他更细节的模型介绍以及实验分析,请分别参考原文

PhaMer-噬菌体预测

c7f97452dfa84d84ea87ff8a838a6f5a.png

在这项工作中,我们采用最先进的语言模型 Transformer 对噬菌体序列进行上下文信息提取。通过构建蛋白质簇词汇表,我们可以将每个序列的蛋白质组成成分和蛋白质位置都输入到 Transformer 中。Transformer 可以使用自我注意机制学习蛋白质组织和关联,并预测测试contig的标签。我们在不同难度的多个数据集上严格测试了我们开发的名为PhaMer的工具,包括质量较高的 RefSeq 基因组、contigs、模拟宏基因组数据、模拟宏基因组数据和公共 IMG/VR 数据集。所有实验结果表明 PhaMer 优于最先进的工具。在真实的宏基因组数据实验中,PhaMer 将噬菌体预测的 F1-score 提高了 27%。

PhaTYP-生活方式预测

f98911bebbe497e664e9b6e4648a19b7.png

我们开发了 PhaTYP来提高宏基因组中噬菌体的生活方式(温和型和裂解型)预测的准确性。我们设计了两种不同的训练任务,自我监督和微调任务。我们严格测试 PhaTYP 并将其与四种最先进的方法进行比较:DeePhage、PHACTS、PhagePred 和 BACPHLIP。实验结果表明,PhaTYP 优于所有这些方法,并且在短序列上实现了更稳定的性能。此外,我们还展示了 PhaTYP 在分析人类新生儿肠道数据的噬菌体生活方式方面的实用性。该应用表明 PhaTYP 是研究宏基因组数据中噬菌体的有用方法,有助于扩展我们对微生物群落的理解。

PhaGCN

PhaGCN 是一个新型半监督学习模型,用于对噬菌体序列进行taxa分类。在这个学习模型中,我们通过结合卷积神经网络 (CNN) 学习的 DNA 序列特征和基因共享网络获得的蛋白质序列相似性来构建知识图谱。然后我们应用图卷积网络(GCN)在训练中利用标记和未标记的样本来增强学习能力。我们在模拟和真实测序数据上测试了 PhaGCN。结果清楚地表明,我们的方法与可用的噬菌体分类工具相比具有优势。

除此之外,最近ICTV在2022年8月更新了噬菌体分类系统,删除了有尾噬菌体目中多个主要的科,如Siphoviridae、Podoviridae和Myoviridae,这些变化会大大影响到科级分类的性能。我们积极更新了我们的数据库和模型以符合最新的标准。目前已知的可以适应新ICTV标准的工具有:PhaGCN, vConTACT 2.0, CAT, 和 MMSeqs2。

bd33e82566316eb767a90d2ce4dbd332.png

我们设置了难度较高的实验条件,降低训练集和测试集的相似度并观察工具在该测试集上的分类表现。实验结果表明,PhaGCN的分类性能受到的影响较小,准确率仅下降2%-3%,相比之下,差异度较大的数据集对MMseqs2和CAT的分类效果影响更为明显,整体准确率下降分别为10%和6%左右。而vConTACT2.0则无法分类短噬菌体序列。

CHERRY

92f6ce446811002ccee5cdc5202537c9.png

在这项工作中,我们将宿主预测制定为知识图中的链接预测,该知识图集成了多种基于蛋白质和 DNA 的序列特征(如噬菌体之间的蛋白质组织信息、噬菌体与原核生物之间的序列相似性、CRISPR 信号以及k-mer频率信息)。CHERRY 可用于预测新发现噬菌体的宿主以及识别感染目标细菌的噬菌体两种功能。我们展示了 CHERRY 在这两种应用中的实用性,并将其性能与 11 种流行的宿主预测方法进行了比较。根据我们的实验结果,CHERRY 在识别病毒-原核生物相互作用方面具有最高的准确性。它在物种水平上优于所有现有方法,精度提高了 37%。此外,CHERRY 在短序列上的表现比其他工具更稳定。

- 讨  论 -

据我们了解,这是第一个在宏基因组数据中进行综合噬菌体序列分析的网络服务器。为了帮助用户进行下游分析,PhaBOX 还提供了基本特征的可视化,例如输入序列和其他噬菌体之间基于相似性的关系、输入序列上的预测蛋白质和蛋白质同源性等中间结果。PhaBOX 为经过或未经过信息学培训的用户提供噬菌体鉴定和分析的一站式服务。我们希望它可以帮助推进各种生态系统中的噬菌体研究领域。

此外,我们也提供了PhaBOX的本地版本以供有需要的用户来预测大批量的数据。PhaBOX的本地版本可以在网站的Download页面访问和下载。

- 参考文献 -

1. PhaMer (phage identification):

7af3991f1455e18159962857bbcc979c.png

Jiayu Shang, Xubo Tang, Ruocheng Guo, Yanni Sun, Accurate identification of bacteriophages from metagenomic data using Transformer, Briefings in Bioinformatics, Volume 23, Issue 4, July 2022, bbac258, https://doi.org/10.1093/bib/bbac258

2. PhaGCN (taxonomy classification):

1a3bf33df7040e9fbf44582624faa7e5.png

Jiayu Shang, Jingzhe Jiang, Yanni Sun, Bacteriophage classification for assembled contigs using graph convolutional network, Bioinformatics, Volume 37, Issue Supplement_1, July 2021, Pages i25–
i33, https://doi.org/10.1093/bioinformatics/btab293

3. CHERRY(host prediction):

eb1687b8d1781d1791da4f5b27d8b659.png

Jiayu Shang, Yanni Sun, CHERRY: a Computational metHod for accuratE pRediction of virus–pRokarYotic interactions using a graph encoder–decoder model, Briefings in Bioinformatics, Volume 23, Issue 5, September 2022, bbac182, https://doi.org/10.1093/bib/bbac182

4. PhaTYP (Lifestyle prediction):

191f2081d49eb49b48352714165511ce.png

Jiayu Shang, Xubo Tang, Yanni Sun, PhaTYP: predicting the lifestyle for bacteriophages using BERT, Briefings in Bioinformatics, 2022, bbac487, https://doi.org/10.1093/bib/bbac487

- 第一作者 -

534cc4232d4522ee14429226b25b2e70.png

香港城市大学

商家煜

博士研究生

第一作者:商家煜,香港城市大学博士研究生,主要研究方向是深度学习在宏基因组学中的应用。目前在Bioinformatics,Frontiers in Microbiology,BMC Biology,Briefings in Bioinformatics等期刊和ISMB/ECCB会议有发表多篇文章。在PhaBOX的网站中主要负责前后端开发以及维护等。

- 通讯作者 -

4cb19013b882de38db333d995aac4ebf.png

香港城市大学

孙燕妮

副教授,博士生导师

通讯作者:孙燕妮,香港城市大学电机工程系(Electrical Engineering)副教授,博士生导师。在美国圣路易斯的华盛顿大学(Washington University in Saint Louis)取得计算机系博士学位后在密西根州立大学计算机系担任助理教授和副教授(with tenure)。2018年加入香港城市大学。主要研究方向是生物信息学,序列分析,宏基因组学,和病毒基因组学。具体的研究课题,发表的论文,以及实验室的招募请参加作者个人主页:https://yannisun.github.io/

- 合作作者 -

aeca1cf977986650c2a5a123df39a95c.png

香港城市大学

彭诚

博士研究生

合作作者:彭诚,香港城市大学博士研究生,主要研究方向是深度学习,宏基因组学,生物信息学。目前在Frontiers in Microbiology有发表一篇文章。在PhaBOX的网站中主要负责前后端开发以及维护等。

猜你喜欢

iMeta简介 高引文章 高颜值绘图imageGP 网络分析iNAP
iMeta网页工具 代谢组MetOrigin 美吉云乳酸化预测DeepKla
iMeta综述 肠菌菌群 植物菌群 口腔菌群 蛋白质结构预测

10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature

系列教程:微生物组入门 Biostar 微生物组  宏基因组

专业技能:学术图表 高分文章 生信宝典 不可或缺的人

一文读懂:宏基因组 寄生虫益处 进化树 必备技能:提问 搜索  Endnote

扩增子分析:图表解读 分析流程 统计绘图

16S功能预测   PICRUSt  FAPROTAX  Bugbase Tax4Fun

生物科普:  肠道细菌 人体上的生命 生命大跃进  细胞暗战 人体奥秘  

写在后面

为鼓励读者交流快速解决科研困难,我们建立了“宏基因组”讨论群,己有国内外6000+ 科研人员加入。请添加主编微信meta-genomics带你入群,务必备注“姓名-单位-研究方向-职称/年级”。高级职称请注明身份,另有海内外微生物PI群供大佬合作交流。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍未解决群内讨论,问题不私聊,帮助同行。

点击阅读原文,跳转最新文章目录阅读

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值