SCIENCE ADVANCES 2025 | 使用潜在扩散模型的人工智能能够产生多种多样且有效的抗菌肽

img

今天介绍一篇发表在SCIENCE ADVANCES上的论文:“Artificial intelligence using a latent diffusion model enables the generation of diverse and potent antimicrobial peptides”。抗生素的广泛使用导致抗生素耐药性问题日益严重,抗菌肽(AMPs)因其快速、强大的膜活性和多样的抑制机制,成为开发新型抗菌药物的有前景的候选物。然而,现有AI模型在生成具有足够新颖性和多样性的AMPs方面存在局限性,且很少应用于抗真菌肽的生成。本文提出了一种结合潜在扩散模型(latent diffusion model)和分子动力学(molecular dynamics)的新方法,用于从头设计AMPs。该方法通过变分自编码器(VAE)将肽序列映射到潜在变量空间,并利用扩散模型生成具有特定属性的潜在变量,再通过VAE解码生成肽序列。与现有方法相比,该方法能够探索更大的化学空间,生成具有更高新颖性和多样性的AMP候选序列。此外,本文还采用多步骤过滤策略,包括分类预测、序列聚类和分子动力学模拟,以进一步筛选和评估生成的AMP候选序列。该方法在实验验证中表现出良好的抗菌活性和安全性,并在体内模型中显示出显著的疗效。这一创新方法为开发新型抗菌药物提供了有力的工具,有助于应对日益严重的抗生素耐药性问题。

介绍

这篇文章介绍了一种新的方法,通过整合潜在扩散模型和分子动力学来设计AMPs,以应对抗生素耐药性这一全球健康问题。文章首先概述了抗生素耐药性问题的严峻性,以及AMPs作为一种替代抗菌剂的潜力。接着,文章讨论了设计AMPs时面临的挑战,尤其是探索巨大化学空间的耗时和成本问题。

文章提出,人工智能(AI)的进步为AMPs的设计带来了希望,尤其是在生成模型方面。扩散模型作为一种生成模型,在图像合成和蛋白质结构设计中表现突出。研究者开发了一个两阶段的流程:生成和过滤。在生成阶段,使用变分自编码器(VAE)将肽序列映射到潜在变量,然后通过扩散模型生成候选AMPs的潜在变量,最后由VAE解码生成肽序列。与其它方法相比,该流程在生成肽序列的新颖性、多样性和化学空间探索上表现更佳。

在过滤阶段,作者采用了包括分类器预测、序列聚类和分子动力学模拟在内的三步策略。通过实验验证,从40个候选肽序列中得到25个具有抗菌或抗真菌活性的肽,其中9个特别活跃,被进一步研究作为潜在的治疗剂。文章强调,这种创新策略在发现AMPs方面具有巨大潜力,可以为解决当代医疗保健中抗菌素耐药性的紧迫挑战做出宝贵贡献。

方法

流程概述

模型流程包括两个主要阶段:生成候选序列和随后进行过滤。扩散模型代表了深度生成模型家族中的一个新颖且开创性的类别,在广泛的领域中表现出卓越的功效。在这项研究中,作者选择了潜在扩散模型来生成候选AMP序列。潜在扩散模型包括两个主要组成部分:编码器-解码器结构和扩散模型。两个主要成分按顺序训练。训练VAE后,使用VAE生成的潜在变量来训练扩散模型。编码器-解码器结构的任务是获取肽的潜在变量并将这些潜在变量解码为肽序列。此外,扩散模型用于生成肽的潜在变量。整体流程如图1所示。

img图1:使用潜在扩散模型生成AMP的过程。(A)训练集采集。(B)将肽序列编码为潜在变量。(C)模型训练。(D)使用潜在扩散模型生成候选肽。(E)用于进一步筛选候选AMP的pipeline。

为了确定用于生成肽序列的合适编码器-解码器,作者分析了各种类型的编码器-解码器结构,了解它们产生潜在变量的能力。这些编码器-解码器结构的训练数据集由来自UniProt数据库的所有肽序列组成,这些序列的长度小于50个氨基酸。重建误差至少部分反映了扩散模型的表征学习能力。因此,重建误差被用作为扩散模型选择最合适的编码器和解码器的标准。由于潜在变量的SD被缩放为1,与扩散模型训练过程中使用的高斯噪声分布相匹配,因此潜在变量的较小SD需要较大的比例因子。根据重建误差公式,较大的比例因子会导致扩散模型中的重建误差较小。当使用由不同编码器-解码器结构生成的潜在变量(其SD已缩放为1)训练扩散模型时,扩散模型的结果损失最终收敛到相似的值。在这些编码器-解码器结构中,使用较大比例因子的基于变压器的VAE实现了最小的扩散模型重建误差,从而保证了扩散模型的重建精度。此外,作者还评估了原始肽序列的潜在变量与随机突变肽序列中1到5个氨基酸后产生的潜在变量之间的欧几里得距离的变化。与基于Transformer 的VAE产生的具有相似突变的肽序列相对应的潜在变量具有最小的欧几里得距离。基于这些发现,作者选择了基于Transformer的VAE作为潜在扩散模型的编码器和解码器。

鉴于特征提取效率和变压器双向编码器表示(BERT)的强适应性,作者选择了BERT编码器作为扩散模型的支柱。作者实施了双阶段训练方案,结合了预训练和微调技术,以提高性能并扩展扩散模型的多功能性。在预训练过程中,作者从VAE训练集中提取了12000个每种长度的肽序列。在微调阶段,训练数据包括从多个数据库收集的抗菌(抗菌和抗真菌)肽,以及根据某些标准过滤以匹配AMP数据的长度分布的非AMP。预训练阶段和微调阶段都使用相同的训练方法,主要区别在于条件约束的应用。具体来说,在预训练阶段,使用未标记的肽序列对模型进行训练,以开发其以不受约束的方式生成潜在肽变量的能力。在微调阶段,引入了条件嵌入,并使用AMP和非AMP数据对模型进行了训练,以增强其有条件生成AMP的能力。在生成阶段,随机产生遵循高斯分布的噪声。然后,扩散模型使用逐步采样方法从依次产生,直到达到。随后,使用VAE解码器将生成的潜在变量转换回其肽序列。

过滤过程分为三个不同的阶段:分类、聚类和粗粒度分子动力学模拟。对于分类模型,使用用于微调扩散模型的相同训练集,但使用增强数据集,其中非AMP的数量比AMP多一个数量级。作者使用各种基础结构训练分类模型,包括递归神经网络(RNN)、带注意力的RNN(RNNAttention) 网络、卷积神经网络(CNN)、递归CNN(RCNN)和Transformer。在测试集中表现出最高性能的集成模型被选为分类器。通过分类器执行筛选后,对筛选后的序列进行聚类。聚类后,与原始序列相比,序列的多样性和新颖性略有增加(原始序列没有经过任何过滤)。随后使用了随机森林模型和粗粒度分子动力学模拟,根据模拟期间与膜的相互作用对聚类后获得的肽进行分类。

VAE

模型结构

在这项工作中,作者使用了一个由三层Transformer组成的VAE作为编码器和解码器。最初,肽序列通过嵌入层从其独热输入表示形式转换为128维向量。随后,这些向量通过三个Transformer编码层进行进一步处理。在重参数化之前使用全连接层来预测序列长度;在重新参数化过程之后,潜在变量的解压缩最初是通过反卷积层进行的。在解码阶段之前,创建一个掩码,根据序列的预测长度进行定制。然后,该掩码与潜在变量一起用于解码和重建肽序列。

损失函数

用于训练VAE的损失函数由三个部分组成:重建损失、KL散度和长度损失。由于肽中氨基酸的分布不平衡,因此根据频率平衡损失以防止模型仅学习最常用的氨基酸至关重要。使用序列重建损失时的预测氨基酸()和真实氨基酸()进行计算。氨基酸按其比例对数频率进行加权,然后缩放到0.5到1.0之间的值。在下面的公式中,是预测的均值,是预测的方差。预测长度()和真实长度()也包含在长度损失的计算中:

潜在扩散模型

模型结构

潜在扩散模型包括两个嵌入层(条件层和位置层)、三个全连接神经网络(时间嵌入、输入特征处理和输出特征处理)、一个BERT编码层、一个层归一化层和一个dropout层。首先,计算时间嵌入、控制嵌入和位置嵌入,然后将其添加到由全连接层处理的潜在变量中。随后,在用归一化层归一化后,它们被馈送到由 Transformers python包构建的BERT编码层中。

损失函数

当扩散步长不为零时,用于训练潜在扩散模型的损失函数是和的均方误差。当扩散步长为零时,模型预测。在下面的公式中,是在步骤处添加的高斯噪声的方差,是扩散步数。

分类器

模型结构

为了过滤生成的AMP,作者训练了几个不同的模型。García-Jacas等人和Sidorczuk等人证明,浅层模型在AMP预测方面具有与深层模型相当的性能。因此,作者选择了RNN、RNN-Attention、CNN、RCNN 和Transformer作为基本结构,使用两个单独的训练集来训练分类器模型。

损失函数

作者使用交叉熵损失函数训练了所有模型。

采样、生成和过滤

采样

Ho等人指出,不需要从逐步采样来生成,可以直接从采样。

生成

尽管作者的模型能够直接预测,但由于一个预测的结果不准确,它需要对进行重采样以逐步生成。根据贝叶斯定理,可以从中重采样以生成。

过滤

最初,作者使用集成分类器对生成的序列进行初步过滤。随后,应用生物过滤器,然后使用CD-HIT以0.6的阈值进行聚类。然后通过粗粒度分子动力学模拟和随机森林模型进一步筛选聚类结果。

模型框架和数据流向如下图图2所示:

img图2:潜在扩散架构和数据流概述。(A)VAE培训期间的数据流程和优化设置。(B)生成过程中的数据流。©扩散模型训练过程中的数据流和优化设置。黑线表示训练步骤,红线表示生成过程。

实验

分析生成的肽序列

作者利用ESM2 650M从训练集和扩散模型生成的肽中提取特征,无需过滤;随后使用t分布随机邻域嵌入(t-SNE),如图3A所示。据观察,训练集中的一些AMPs可以与蛋白质语言模型中的非AMP数据区分开来,并且蛋白质语言模型中AMPs的分布与未经过滤的扩散模型生成的分布在很大程度上重叠。这种相似性证明,我们的模型生成的肽序列与蛋白质语言模型特征空间内训练集中包含的AMP序列具有可比的分布。由于蛋白质语言模型和t-SNE都是无监督学习算法,因此它们在训练过程中不会包含有关AMP的特定信息。由于缺乏具体信息,他们无法明确区分AMP和非AMP。

img图3:在没有分类器帮助的情况下通过不同方法生成的肽的物理化学性质的比较。(A)AMP、非AMP和生成的AMP的t分布随机邻域嵌入(t-SNE)可视化。(B到F)在无约束模式下模型生成的未过滤肽的评估:(B)氨基酸分布。(C)芳香性。(D)螺旋分数。(E)等电点。(F)净电荷。

分析生成肽序列的理化性质

作者分析了由未经过滤的扩散模型生成的候选AMP的物理化学性质,并将它们与最近开发的方法和无模型方法生成的序列进行比较,以评估它们的差异。在进行比较之前,所有基于模型的方法(扩散模型、无约束模式下的HydrAMP、PepCVAE和VAE)都使用相同的训练集进行了重新训练。由于它们的生成规则,无模型方法产生的氨基酸分布与训练集的氨基酸分布相同。所有模型都是在无约束条件下生成的,使用AMP作为唯一的控制条件。与负面数据集相比,我们生成的序列表现出较高的Gly、Lys、Arg和Cys出现率,而Met、Glu、Ser、Asp和Thr的出现率较低。与训练AMP序列相比,生成的AMP序列具有更高的Leu、Gln和His含量,而Ala、Trp和Lys含量较低,如图3B所示。

此外,作者评估了不同方法产生的候选AMPs的物理化学性质和二级结构的差异。作者的方法和氨基酸分布采样方法产生的候选序列具有与训练集中AMP相似的芳香性,没有显着差异,如图3C所示。并且只有作者的方法显示其肽二级结构的螺旋分数与训练集中AMP的螺旋分数之间没有显着差异,如图3D所示。尽管所有方法生成的肽序列的等电点分布与训练集的分布不同,但作者的方法生成的肽的等电点分布的四分位数与训练集的四分位数接近(图3E和F)。这些发现表明,扩散模型能够区分特定的AMP和非AMP,从而产生具有可能类似于已知AMP机制的候选阳离子肽。这突出了潜在扩散模型产生表现出所需物理化学性质的肽的卓越能力。随后,作者评估了扩散模型与其他模型的能力,以探索肽化学空间。在生成超过600,000个序列后,扩散模型保持了低于1%的序列重复率,而HydrAMP和PepCVAE的重复率分别为9.55%和98.33%。这些结果表明,扩散模型能够探索广泛的化学空间。随后使用建议的过滤管道筛选生成的600,000个肽序列,选择40个用于进一步的实验研究。

分析生成肽序列的新颖性和多样性

最终,作者使用潜在扩散模型和其他最先进的方法比较了为湿实验室验证生成的候选AMP,评估了它们的新颖性和多样性。使用了四个指标进行比较,包括候选AMP相对于训练集中的相似性和同一性,以及一些生成的候选AMP相对于其他生成的候选AMP的相似性(序列内相似性)和同一性(序列内同一性)。生成的肽与训练集中的肽的相似性低至0.5686±0.0720,优于最先进的方法,包括CLaSS(0.7499)、HydrAMP(0.7655±0.1082)、MLPep(0.7763±0.0574)和ML(0.7662±0.0571)(图4G和H)。一些生成的候选AMP相对于其他生成的候选AMP的相似性和同一性分别为0.4162±0.0626和0.2623±0.0486,明显低于最近开发的CLaSS、HydrAMP、MLPep和ML管道方法(图4I和J)。结果表明,作者的模型能够生成更多新颖和多样化的候选AMP。

img图4:用不同方法过滤后肽的新颖性和多样性。(G)与训练集相比的序列同一性。(H)与训练集相比的序列相似性。(I)与其他生成的序列的序列同一性比较。(J)与其他生成的序列的序列相似性比较。

验证生成肽序列的活性

作者在对40个候选序列进行抗菌活性测试后,筛选出25个具有抗菌活性的肽,准确率为62.5%。下表中列出了几种抗菌肽(AMPs)对特定细菌和真菌菌株的最小抑制浓度(MIC)值,其中AMP-2、AMP-3、AMP-11、AMP-12、AMP-17、AMP-20、AMP-24、AMP-25和AMP-29表现出显著的抗菌活性。特别是AMP-2、AMP-11、AMP-17和AMP-24对P. aeruginosa GD001、A. baumannii GD003和E. coli GD004显示出较强的抗菌活性,MIC值在3.125到6.25μM之间。AMP-24对A. baumannii GD003和E. coli GD004的MIC值为6.25μM,对P. aeruginosa GD001的MIC值为100μM。AMP-25对A. baumannii GD003的MIC值为12.5 μM,对P. aeruginosa GD001的MIC值为400μM。此外,AMP-2、AMP-24和AMP-25对特定细菌种类表现出选择性,这表明它们具有针对特定病原体的抗菌潜力。

img

验证生成肽序列的溶血性和毒性

通过测试其对大鼠红细胞的溶血活性和对哺乳动物细胞的细胞毒性,AMP-24和AMP-29在安全性评估中表现出较低的溶血活性和细胞毒性,这表明它们具有潜在的体内使用价值。如图5所示,AMP-24和AMP-29的溶血活性在50μM时仍然较低,而AMP-2、AMP-11、AMP-17和AMP-25显示出较高的溶血活性。

img图5:具有强效抗菌活性的肽的溶血活性测定(Mic≤12.5μM)。LL-37、iseganan和两性霉素B(AMB)用作抗菌或抗真菌的阳性对照。

此外,AMP-24和AMP-29在MTT测定中表现出低细胞毒性,如下表所示,而AMP-2、AMP-11、AMP-17和AMP-25则表现出中等细胞毒性。AMP-24诱导溶血和细胞毒性的浓度至少是其MIC的32倍,而AMP-29引发溶血活性和细胞毒性的浓度分别是其MIC的4倍和大于32倍。这些结果表明,AMP-24和AMP-29在保持抗菌活性的同时,具有较低的溶血和细胞毒性,显示出较好的安全性。

img

结论

本研究通过开发一个结合潜在扩散和过滤方法的模型,成功应对了增强AI模型生成的有效AMPs多样性的挑战,同时保持了一定的准确性。该模型在设计序列时展现出无与伦比的多样性,并且其定制的训练协议可以轻松适应其他肽生成任务,如抗肿瘤或抗糖尿病肽。通过合成和检测40个肽序列,证实了模型的有效性,其中25个表现出抗菌或抗真菌活性。特别是,这是首次使用AI方法开发抗真菌肽的研究。此外,研究结果表明,该模型为开发创新肽类药物提供了一条途径,以对抗药物抗性。尽管取得了这些成果,但研究中仍有改进空间,整合诸如物理化学属性、二级结构和活性指标等参数作为生成过程中的条件,将允许精确驱动的AMP生成。

如何学习AI大模型 ?

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓

CSDN粉丝独家福利

这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】

读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈

(👆👆👆安全链接,放心点击)

对于0基础小白入门:

如果你是零基础小白,想快速入门大模型是可以考虑的。

一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

👉1.大模型入门学习思维导图👈

要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。

对于从来没有接触过AI大模型的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。(全套教程文末领取哈)
在这里插入图片描述

👉2.AGI大模型配套视频👈

很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。

在这里插入图片描述
在这里插入图片描述

👉3.大模型实际应用报告合集👈

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(全套教程文末领取哈)

在这里插入图片描述

👉4.大模型落地应用案例PPT👈

光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。(全套教程文末领取哈)

在这里插入图片描述

👉5.大模型经典学习电子书👈

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。(全套教程文末领取哈)
img

在这里插入图片描述

👉6.大模型面试题&答案👈

截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。(全套教程文末领取哈)

在这里插入图片描述
👉学会后的收获:👈
基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习

CSDN粉丝独家福利

这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】

读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈

(👆👆👆安全链接,放心点击)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值