引言
中心法则,这一我们都曾学过的现代生物学核心要义告诉我们,遗传物质决定蛋白功能,这是自然界严苛的生命法则。
基因作为携带遗传信息的基本物质单位,其序列组成差异影响蛋白质功能,进而控制生物性状。随着高通量测序技术的广泛应用,科学家们可以很容易以低成本解码复杂环境样品中微生物暗物质遗传信息,包括先前从未报道过的海量新基因序列。如何精准识别其编码蛋白质功能,对于发现新型酶基因资源并解析其功能机制至关重要。
然而,同步实现微生物蛋白编码基因功能的精准分类与发现是一个充满挑战的任务。基于经典BLAST的序列比对的注释方法往往需要施加严苛的一刀切筛选阈值,无法识别低同源或远源的功能基因序列,导致严重低估功能基因的实际多样性。基于隐马尔可夫模型等机器学习算法的工具在学习基因序列的高层次的语义和结构表征相似性方面也存在不足,限制了预测结果的准确性。
相比之下,蛋白质语言模型在学习全面而复杂的蛋白质语义表征方面表现出色,能够在序列与功能之间建立有意义的联系,但是有限的已知功能基因数据集对深度学习模型的训练构成重大挑战。为应对这一挑战,迫切需要开发一种智能、精确的蛋白编码基因的功能分类与发现的通用范式,以克服现存方法的局限性。
针对这一难题,西湖大学工学院鞠峰团队首次提出了一个兼具蛋白编码功能基因的精准分类与发现双重功能的可扩展深度学习框架 FunGeneTyper, 并以威胁人类健康的抗生素抗性基因(ARG)为例,利用该新框架开发了相应的ARG精准分类器ARGTyper,比现有工具表现出更好的ARG分类性能。研究团队进一步利用从不同生境获得的实际微生物宏基因组测序数据测试展示了该新框架在新的功能基因发现任务上的明显优越性,并通过迁移学习证明了该框架在细菌毒力基因(VFG)等其他类型功能基因的精准分类与发现方面具有普适性。该成果以“Highly-Accurate Classification and Discovery of Microbial Protein Functions Using FunGeneTyper: An Extensible Deep Learning Framework”为题,于2024年6月在线发表于计算生物学与生物信息学领域知名期刊《Briefings in Bioinformatics》【IF 6.8】。
https://doi.org/10.1093/bib/bbae319
西湖大学博士生张国庆、访问学生王辉为论文共同第一作者,西湖大学工学院特聘研究员鞠峰、特聘研究员原发杰为论文共同通讯作者,西湖大学生命科学学院杨剑教授等为论文研究合作者。课题研究受到浙江省自然科学基金委、西湖大学合成生物学与生物智造中心、西湖大学未来产业研究中心、西湖实验室等机构的支持。
图形摘要: FunGeneTyper赋能蛋白编码基因的精准注释和微生物组的酶资源发现。
研究人员首先基于核心数据集搭建出结构化功能基因数据库(SFGD),包括各序列功能主型与亚型,以此作为模型的训练数据集。将结构化功能基因数据库的序列编码为嵌入向量,在蛋白质语言预训练模型的基础上,通过对适配层的微调训练,获得深度学习模型FunTrans 和FunRep。最终用于功能基因注释的FunGeneTyper框架由深度学习模型FunTrans和FunRep串联组成。在接收到蛋白质序列数据后,FunTrans可以有效滤除非目标功能的蛋白质序列分类并在大类(主型)层面进行全面的功能分类。随后,FunRep进一步注释蛋白质序列到一个精细化的子类(亚型)。此外,通过微调训练蛋白质语言预训练模型的适配器(Adapter)架构具有可迁移学习的特性,适用于特定功能基因注释与发现的新任务。
图1. FunGeneTyper模型设计与结构化功能基因数据库构建流程。
为了展示FunGeneTyper的分类性能与学习能力,研究人员基于权威的综合抗生素耐药性数据库(CARD)构建了结构化抗生素耐药性数据库(SARD),利用FunGeneTyper框架进行训练得到一个专门针对抗生素抗性基因(ARG)的ARGTyper分类器。该分类器能够有效地将19个抗生素抗性基因的主型进行分类,其准确度达到0.9979,F1-score为0.9756。而对于更为精细的2972个亚型进行分类,也能表现出较好的性能(准确度为0.9023)。研究人员将这个分类器用于注释不同生境下经实验验证确认的ARG序列,其性能高于现有其他ARG注释工具。
图2. 基于结构化抗生素耐药性数据库的FunGeneTyper模型对于ARG分类的性能评估。
为了测试FunGeneTyper框架的普适性,研究人员接下来基于权威的毒力因子数据库VFNet构建结构化毒力因子数据库(SVFD),进而训练得到用于毒力因子分类的VFGTyper分类器。该分类器同样表现出了优越的分类性能,无论是主型水平(准确度为0.9907)还是亚型水平(准确度为0.9499)都能得到较好的结果。这些结果表明,FunGeneTyper框架有潜力推广运用至其他类型功能基因的分类任务中,为进一步开发功能基因的精准分类新工具提供支撑。
图3. 基于结构化毒力因子数据库的FunGeneTyper模型迁移学习对于VFG分类的性能评估。
此外,研究人员还对模型的微调训练过程进行了对比,发现仅对适配层进行微调训练就可获得与预训练模型微调训练几乎相同的优越性能。因此,FunGeneTyper的参数可作为轻量级“即插即用”的适配器,从而在保持较高性能的前提下,以社区形式在用户间进行共享,进而推动全球研发者便捷利用本研究开发的深度学习模型与框架开发任一类型的功能基因精准分类与发现新工具。
图4. FunGeneTyper框架下适配器共享社区示意图。
总结
该项研究基于结构化的功能基因数据库(SFGD)构建与蛋白质语言模型算法,开发了一个蛋白编码基因的功能精准分类与发现的深度学习框架FunGeneTyper [1]。通过ARG和VFG两种功能基因的注释任务,论述了该框架强大的蛋白编码基因的精准分类与发现能力,并且通过迁移学习展示了其快捷应用于实现其他功能基因精准分类与发现的潜能,为全球用户与研发者利用该框架在后续研究中开发所有类型的功能基因注释新工具提供了一个可行的方法学范式。
宏基因组学(Metagenomics)作为当前全球微生物组研究领域的主流方法学,是打开丰富微生物暗物质与基因资源宝库的金钥匙[2]。本研究提出的可扩展深度学习框架FunGeneTyper与高通量的功能基因组学技术的耦合,将显著促进从未培养环境微生物中发现未表征的有价值的酶基因资源。这一进程对于我们理解和利用来自不同环境的生物资源、生物经济和人类系统相关的微生物组赋存的酶基因与宿主物种资源至关重要[3]。
图5. FunGeneTyper助力微生物组的基因资源发掘,以改善环境-生物经济-人类系统。
参考文献:
[1] Guoqing Zhang, Hui Wang, Zhiguo Zhang Lu Zhang, Guobing Guo, Jian Yang, Fajie Yuan, Feng Ju, Highly-Accurate Classification and Discovery of Microbial Protein-coding Gene Functions Using FunGeneTyper: An Extensible Deep Learning Framework. Briefings in Bioinformatics, 2024
[2] 王慧, 鞠峰. 宏基因组学在环境微生物组研究中的应用与展望[J],微生物学通报. 2024.1 (6): 1814-1833. https://wswxtb.ijournals.cn/html/wswxtbcn/2024/6/tb24061814.htm
[3] Feng Ju, Qixiao Zhai, Gang Luo, Hongzhi Tang, Lei Dai. Microbiome research for advancing engineering in life science[J]. Engineering in Life Sciences, 2024, 24 (5), https://doi.org/10.1002/elsc.202400028
来 源 | 鞠峰实验室
编 辑 | 彭玥
校 对 | 苏凌菲
宏基因组推荐
本公众号现全面开放投稿,希望文章作者讲出自己的科研故事,分享论文的精华与亮点。投稿请联系小编(微信号:yongxinliu 或 meta-genomics)
猜你喜欢
iMeta高引文章 fastp 复杂热图 ggtree 绘图imageGP 网络iNAP
iMeta网页工具 代谢组MetOrigin 美吉云乳酸化预测DeepKla
iMeta综述 肠菌菌群 植物菌群 口腔菌群 蛋白质结构预测
10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature
一文读懂:宏基因组 寄生虫益处 进化树 必备技能:提问 搜索 Endnote
16S功能预测 PICRUSt FAPROTAX Bugbase Tax4Fun
生物科普: 肠道细菌 人体上的生命 生命大跃进 细胞暗战 人体奥秘
写在后面
为鼓励读者交流快速解决科研困难,我们建立了“宏基因组”讨论群,己有国内外6000+ 科研人员加入。请添加主编微信meta-genomics带你入群,务必备注“姓名-单位-研究方向-职称/年级”。高级职称请注明身份,另有海内外微生物PI群供大佬合作交流。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍未解决群内讨论,问题不私聊,帮助同行。
点击阅读原文