SCIENCE ADVANCES 2025 | 使用潜在扩散模型的人工智能能够产生多种多样且有效的抗菌肽-CSDN博客

本文链接：https://blog.csdn.net/xiaoganbuaiuk/article/details/147323789

今天介绍一篇发表在SCIENCE ADVANCES上的论文：“Artificial intelligence using a latent diffusion model enables the generation of diverse and potent antimicrobial peptides”。抗生素的广泛使用导致抗生素耐药性问题日益严重，抗菌肽（AMPs）因其快速、强大的膜活性和多样的抑制机制，成为开发新型抗菌药物的有前景的候选物。然而，现有AI模型在生成具有足够新颖性和多样性的AMPs方面存在局限性，且很少应用于抗真菌肽的生成。本文提出了一种结合潜在扩散模型（latent diffusion model）和分子动力学（molecular dynamics）的新方法，用于从头设计AMPs。该方法通过变分自编码器（VAE）将肽序列映射到潜在变量空间，并利用扩散模型生成具有特定属性的潜在变量，再通过VAE解码生成肽序列。与现有方法相比，该方法能够探索更大的化学空间，生成具有更高新颖性和多样性的AMP候选序列。此外，本文还采用多步骤过滤策略，包括分类预测、序列聚类和分子动力学模拟，以进一步筛选和评估生成的AMP候选序列。该方法在实验验证中表现出良好的抗菌活性和安全性，并在体内模型中显示出显著的疗效。这一创新方法为开发新型抗菌药物提供了有力的工具，有助于应对日益严重的抗生素耐药性问题。

介绍

这篇文章介绍了一种新的方法，通过整合潜在扩散模型和分子动力学来设计AMPs，以应对抗生素耐药性这一全球健康问题。文章首先概述了抗生素耐药性问题的严峻性，以及AMPs作为一种替代抗菌剂的潜力。接着，文章讨论了设计AMPs时面临的挑战，尤其是探索巨大化学空间的耗时和成本问题。

文章提出，人工智能（AI）的进步为AMPs的设计带来了希望，尤其是在生成模型方面。扩散模型作为一种生成模型，在图像合成和蛋白质结构设计中表现突出。研究者开发了一个两阶段的流程：生成和过滤。在生成阶段，使用变分自编码器（VAE）将肽序列映射到潜在变量，然后通过扩散模型生成候选AMPs的潜在变量，最后由VAE解码生成肽序列。与其它方法相比，该流程在生成肽序列的新颖性、多样性和化学空间探索上表现更佳。

在过滤阶段，作者采用了包括分类器预测、序列聚类和分子动力学模拟在内的三步策略。通过实验验证，从40个候选肽序列中得到25个具有抗菌或抗真菌活性的肽，其中9个特别活跃，被进一步研究作为潜在的治疗剂。文章强调，这种创新策略在发现AMPs方面具有巨大潜力，可以为解决当代医疗保健中抗菌素耐药性的紧迫挑战做出宝贵贡献。

方法

流程概述

模型流程包括两个主要阶段：生成候选序列和随后进行过滤。扩散模型代表了深度生成模型家族中的一个新颖且开创性的类别，在广泛的领域中表现出卓越的功效。在这项研究中，作者选择了潜在扩散模型来生成候选AMP序列。潜在扩散模型包括两个主要组成部分：编码器-解码器结构和扩散模型。两个主要成分按顺序训练。训练VAE后，使用VAE生成的潜在变量来训练扩散模型。编码器-解码器结构的任务是获取肽的潜在变量并将这些潜在变量解码为肽序列。此外，扩散模型用于生成肽的潜在变量。整体流程如图1所示。

图1：使用潜在扩散模型生成AMP的过程。（A）训练集采集。（B）将肽序列编码为潜在变量。（C）模型训练。（D）使用潜在扩散模型生成候选肽。（E）用于进一步筛选候选AMP的pipeline。

为了确定用于生成肽序列的合适编码器-解码器，作者分析了各种类型的编码器-解码器结构，了解它们产生潜在变量的能力。这些编码器-解码器结构的训练数据集由来自UniProt数据库的所有肽序列组成，这些序列的长度小于50个氨基酸。重建误差至少部分反映了扩散模型的表征学习能力。因此，重建误差被用作为扩散模型选择最合适的编码器和解码器的标准。由于潜在变量的SD被缩放为1，与扩散模型训练过程中使用的高斯噪声分布相匹配，因此潜在变量的较小SD需要较大的比例因子。根据重建误差公式，较大的比例因子会导致扩散模型中的重建误差较小。当使用由不同编码器-解码器结构生成的潜在变量（其SD已缩放为1）训练扩散模型时，扩散模型的结果损失最终收敛到相似的值。在这些编码器-解码器结构中，使用较大比例因子的基于变压器的VAE实现了最小的扩散模型重建误差，从而保证了扩散模型的重建精度。此外，作者还评估了原始肽序列的潜在变量与随机突变肽序列中1到5个氨基酸后产生的潜在变量之间的欧几里得距离的变化。与基于Transformer 的VAE产生的具有相似突变的肽序列相对应的潜在变量具有最小的欧几里得距离。基于这些发现，作者选择了基于Transformer的VAE作为潜在扩散模型的编码器和解码器。

鉴于特征提取效率和变压器双向编码器表示（BERT）的强适应性，作者选择了BERT编码器作为扩散模型的支柱。作者实施了双阶段训练方案，结合了预训练和微调技术，以提高性能并扩展扩散模型的多功能性。在预训练过程中，作者从VAE训练集中提取了12000个每种长度的肽序列。在微调阶段，训练数据包括从多个数据库收集的抗菌（抗菌和抗真菌）肽，以及根据某些标准过滤以匹配AMP数据的长度分布的非AMP。预训练阶段和微调阶段都使用相同的训练方法，主要区别在于条件约束的应用。具体来说，在预训练阶段，使用未标记的肽序列对模型进行训练，以开发其以不受约束的方式生成潜在肽变量的能力。在微调阶段，引入了条件嵌入，并使用AMP和非AMP数据对模型进行了训练，以增强其有条件生成AMP的能力。在生成阶段，随机产生遵循高斯分布的噪声。然后，扩散模型使用逐步采样方法从依次产生，直到达到。随后，使用VAE解码器将生成的潜在变量转换回其肽序列。

过滤过程分为三个不同的阶段：分类、聚类和粗粒度分子动力学模拟。对于分类模型，使用用于微调扩散模型的相同训练集，但使用增强数据集，其中非AMP的数量比AMP多一个数量级。作者使用各种基础结构训练分类模型，包括递归神经网络（RNN）、带注意力的RNN（RNNAttention）网络、卷积神经网络（CNN）、递归CNN（RCNN）和Transformer。在测试集中表现出最高性能的集成模型被选为分类器。通过分类器执行筛选后，对筛选后的序列进行聚类。聚类后，与原始序列相比，序列的多样性和新颖性略有增加（原始序列没有经过任何过滤）。随后使用了随机森林模型和粗粒度分子动力学模拟，根据模拟期间与膜的相互作用对聚类后获得的肽进行分类。

VAE

模型结构

在这项工作中，作者使用了一个由三层Transformer组成的VAE作为编码器和解码器。最初，肽序列通过嵌入层从其独热输入表示形式转换为128维向量。随后，这些向量通过三个Transformer编码层进行进一步处理。在重参数化之前使用全连接层来预测序列长度；在重新参数化过程之后，潜在变量的解压缩最初是通过反卷积层进行的。在解码阶段之前，创建一个掩码，根据序列的预测长度进行定制。然后，该掩码与潜在变量一起用于解码和重建肽序列。

损失函数

用于训练VAE的损失函数由三个部分组成：重建损失、KL散度和长度损失。由于肽中氨基酸的分布不平衡，因此根据频率平衡损失以防止模型仅学习最常用的氨基酸至关重要。使用序列重建损失时的预测氨基酸（）和真实氨基酸（）进行计算。氨基酸按其比例对数频率进行加权，然后缩放到0.5到1.0之间的值。在下面的公式中，是预测的均值，是预测的方差。预测长度（）和真实长度（）也包含在长度损失的计算中：

潜在扩散模型

模型结构

潜在扩散模型包括两个嵌入层（条件层和位置层）、三个全连接神经网络（时间嵌入、输入特征处理和输出特征处理）、一个BERT编码层、一个层归一化层和一个dropout层。首先，计算时间嵌入、控制嵌入和位置嵌入，然后将其添加到由全连接层处理的潜在变量中。随后，在用归一化层归一化后，它们被馈送到由 Transformers python包构建的BERT编码层中。

损失函数

当扩散步长不为零时，用于训练潜在扩散模型的损失函数是和的均方误差。当扩散步长为零时，模型预测。在下面的公式中，是在步骤处添加的高斯噪声的方差，是扩散步数。

分类器

模型结构

为了过滤生成的AMP，作者训练了几个不同的模型。García-Jacas等人和Sidorczuk等人证明，浅层模型在AMP预测方面具有与深层模型相当的性能。因此，作者选择了RNN、RNN-Attention、CNN、RCNN 和Transformer作为基本结构，使用两个单独的训练集来训练分类器模型。

损失函数

作者使用交叉熵损失函数训练了所有模型。

采样、生成和过滤

采样

Ho等人指出，不需要从逐步采样来生成，可以直接从采样。

生成

尽管作者的模型能够直接预测，但由于一个预测的结果不准确，它需要对进行重采样以逐步生成。根据贝叶斯定理，可以从中重采样以生成。

过滤

最初，作者使用集成分类器对生成的序列进行初步过滤。随后，应用生物过滤器，然后使用CD-HIT以0.6的阈值进行聚类。然后通过粗粒度分子动力学模拟和随机森林模型进一步筛选聚类结果。

模型框架和数据流向如下图图2所示：

图2：潜在扩散架构和数据流概述。(A)VAE培训期间的数据流程和优化设置。(B)生成过程中的数据流。©扩散模型训练过程中的数据流和优化设置。黑线表示训练步骤，红线表示生成过程。

实验

分析生成的肽序列

作者利用ESM2 650M从训练集和扩散模型生成的肽中提取特征，无需过滤;随后使用t分布随机邻域嵌入（t-SNE），如图3A所示。据观察，训练集中的一些AMPs可以与蛋白质语言模型中的非AMP数据区分开来，并且蛋白质语言模型中AMPs的分布与未经过滤的扩散模型生成的分布在很大程度上重叠。这种相似性证明，我们的模型生成的肽序列与蛋白质语言模型特征空间内训练集中包含的AMP序列具有可比的分布。由于蛋白质语言模型和t-SNE都是无监督学习算法，因此它们在训练过程中不会包含有关AMP的特定信息。由于缺乏具体信息，他们无法明确区分AMP和非AMP。

图3：在没有分类器帮助的情况下通过不同方法生成的肽的物理化学性质的比较。（A）AMP、非AMP和生成的AMP的t分布随机邻域嵌入（t-SNE）可视化。（B到F）在无约束模式下模型生成的未过滤肽的评估：（B）氨基酸分布。（C）芳香性。（D）螺旋分数。（E）等电点。（F）净电荷。

分析生成肽序列的理化性质

作者分析了由未经过滤的扩散模型生成的候选AMP的物理化学性质，并将它们与最近开发的方法和无模型方法生成的序列进行比较，以评估它们的差异。在进行比较之前，所有基于模型的方法（扩散模型、无约束模式下的HydrAMP、PepCVAE和VAE）都使用相同的训练集进行了重新训练。由于它们的生成规则，无模型方法产生的氨基酸分布与训练集的氨基酸分布相同。所有模型都是在无约束条件下生成的，使用AMP作为唯一的控制条件。与负面数据集相比，我们生成的序列表现出较高的Gly、Lys、Arg和Cys出现率，而Met、Glu、Ser、Asp和Thr的出现率较低。与训练AMP序列相比，生成的AMP序列具有更高的Leu、Gln和His含量，而Ala、Trp和Lys含量较低，如图3B所示。

此外，作者评估了不同方法产生的候选AMPs的物理化学性质和二级结构的差异。作者的方法和氨基酸分布采样方法产生的候选序列具有与训练集中AMP相似的芳香性，没有显着差异，如图3C所示。并且只有作者的方法显示其肽二级结构的螺旋分数与训练集中AMP的螺旋分数之间没有显着差异，如图3D所示。尽管所有方法生成的肽序列的等电点分布与训练集的分布不同，但作者的方法生成的肽的等电点分布的四分位数与训练集的四分位数接近（图3E和F）。这些发现表明，扩散模型能够区分特定的AMP和非AMP，从而产生具有可能类似于已知AMP机制的候选阳离子肽。这突出了潜在扩散模型产生表现出所需物理化学性质的肽的卓越能力。随后，作者评估了扩散模型与其他模型的能力，以探索肽化学空间。在生成超过600,000个序列后，扩散模型保持了低于1%的序列重复率，而HydrAMP和PepCVAE的重复率分别为9.55%和98.33%。这些结果表明，扩散模型能够探索广泛的化学空间。随后使用建议的过滤管道筛选生成的600,000个肽序列，选择40个用于进一步的实验研究。

分析生成肽序列的新颖性和多样性

最终，作者使用潜在扩散模型和其他最先进的方法比较了为湿实验室验证生成的候选AMP，评估了它们的新颖性和多样性。使用了四个指标进行比较，包括候选AMP相对于训练集中的相似性和同一性，以及一些生成的候选AMP相对于其他生成的候选AMP的相似性（序列内相似性）和同一性（序列内同一性）。生成的肽与训练集中的肽的相似性低至0.5686±0.0720，优于最先进的方法，包括CLaSS（0.7499）、HydrAMP（0.7655±0.1082）、MLPep（0.7763±0.0574）和ML（0.7662±0.0571）（图4G和H）。一些生成的候选AMP相对于其他生成的候选AMP的相似性和同一性分别为0.4162±0.0626和0.2623±0.0486，明显低于最近开发的CLaSS、HydrAMP、MLPep和ML管道方法（图4I和J）。结果表明，作者的模型能够生成更多新颖和多样化的候选AMP。

图4：用不同方法过滤后肽的新颖性和多样性。（G）与训练集相比的序列同一性。（H）与训练集相比的序列相似性。（I）与其他生成的序列的序列同一性比较。（J）与其他生成的序列的序列相似性比较。

验证生成肽序列的活性

作者在对40个候选序列进行抗菌活性测试后，筛选出25个具有抗菌活性的肽，准确率为62.5%。下表中列出了几种抗菌肽（AMPs）对特定细菌和真菌菌株的最小抑制浓度（MIC）值，其中AMP-2、AMP-3、AMP-11、AMP-12、AMP-17、AMP-20、AMP-24、AMP-25和AMP-29表现出显著的抗菌活性。特别是AMP-2、AMP-11、AMP-17和AMP-24对P. aeruginosa GD001、A. baumannii GD003和E. coli GD004显示出较强的抗菌活性，MIC值在3.125到6.25μM之间。AMP-24对A. baumannii GD003和E. coli GD004的MIC值为6.25μM，对P. aeruginosa GD001的MIC值为100μM。AMP-25对A. baumannii GD003的MIC值为12.5 μM，对P. aeruginosa GD001的MIC值为400μM。此外，AMP-2、AMP-24和AMP-25对特定细菌种类表现出选择性，这表明它们具有针对特定病原体的抗菌潜力。

验证生成肽序列的溶血性和毒性

通过测试其对大鼠红细胞的溶血活性和对哺乳动物细胞的细胞毒性，AMP-24和AMP-29在安全性评估中表现出较低的溶血活性和细胞毒性，这表明它们具有潜在的体内使用价值。如图5所示，AMP-24和AMP-29的溶血活性在50μM时仍然较低，而AMP-2、AMP-11、AMP-17和AMP-25显示出较高的溶血活性。

图5：具有强效抗菌活性的肽的溶血活性测定（Mic≤12.5μM）。LL-37、iseganan和两性霉素B（AMB）用作抗菌或抗真菌的阳性对照。

此外，AMP-24和AMP-29在MTT测定中表现出低细胞毒性，如下表所示，而AMP-2、AMP-11、AMP-17和AMP-25则表现出中等细胞毒性。AMP-24诱导溶血和细胞毒性的浓度至少是其MIC的32倍，而AMP-29引发溶血活性和细胞毒性的浓度分别是其MIC的4倍和大于32倍。这些结果表明，AMP-24和AMP-29在保持抗菌活性的同时，具有较低的溶血和细胞毒性，显示出较好的安全性。

结论

本研究通过开发一个结合潜在扩散和过滤方法的模型，成功应对了增强AI模型生成的有效AMPs多样性的挑战，同时保持了一定的准确性。该模型在设计序列时展现出无与伦比的多样性，并且其定制的训练协议可以轻松适应其他肽生成任务，如抗肿瘤或抗糖尿病肽。通过合成和检测40个肽序列，证实了模型的有效性，其中25个表现出抗菌或抗真菌活性。特别是，这是首次使用AI方法开发抗真菌肽的研究。此外，研究结果表明，该模型为开发创新肽类药物提供了一条途径，以对抗药物抗性。尽管取得了这些成果，但研究中仍有改进空间，整合诸如物理化学属性、二级结构和活性指标等参数作为生成过程中的条件，将允许精确驱动的AMP生成。