MetaHMEI:基于元学习的少量组蛋白修饰酶抑制活性预测方法

🌞欢迎来到带你看论文的世界 
🌈博客主页:卿云阁

💌欢迎关注🎉点赞👍收藏⭐️留言📝

🌟本文由卿云阁原创!

📆首发时间:🌹2024年3月28日🌹

✉️希望可以和大家一起完成进阶之路!

🙏作者水平很有限,如果发现错误,请留言轰炸哦!万分感谢!


MetaHMEI: meta-learning for prediction of few-shot histone modifying enzyme inhibitors https://doi.org/10.1093/bib/bbad115

摘要

       组蛋白是染色质的主要蛋白质成分,组蛋白的化学修饰对相关基因的转录状态有着至关重要的影响。负责添加或去除化学标签的组蛋白修饰酶(HME)已成为一类非常重要的药物靶点,一些HME抑制剂作为抗癌药物推出,数十种分子正在进行临床试验。为了加快HME抑制剂的药物发现过程,已经开发了基于机器学习的预测模型,以丰富来自广阔化学空间的活性分子。然而,具有已知活性的化合物的数量在不同的HME之间分布很大程度上不平衡,特别是在许多靶标的活性样品少于100个的情况下。在这种情况下,很难直接基于机器学习建立有效的虚拟筛选模型。为此,我们提出了一种新的基于元学习的组蛋白修饰酶抑制剂预测方法(MetaHMEI)。我们提出的MetaHMEI首先使用自监督预训练方法从大型未标记化学数据集中获得高质量的分子亚结构嵌入。然后,MetaHMEI利用基于Transformer的编码器和元学习框架来构建预测模型。MetaHMEI允许将从具有足够样本的HME中学到的先验知识有效地转移到具有少量样本的HMEs,因此所提出的模型可以对数据有限的HME产生准确的预测。在我们收集和策划的HME数据集上的大量实验结果表明,在少量学习样本的情况下,MetaHMEI优于其他方法。此外,我们将MetaHMEI应用于组蛋白JMJD3抑制剂MJD3可以促进细胞分化和衰老)的虚拟筛选过程,并成功获得了三种小分子抑制剂,进一步支持了我们模型的有效性。


材料

数据集是从ChEMBL数据库中收集和整理的(https://www.ebi.ac.uk/chembl/CHEMBL)。

我们重点研究了组蛋白修饰酶的复合靶标活性数据,包括HMT、组蛋白乙酰化酶、组蛋白去甲基化酶(HDM)和HDAC。主要数据集在以下步骤中进行了处理:

(1)删除没有SMILES和“标准值”的记录,以及具有除抑制、IC50、EC50、Ki和Kd之外的“标准类型”的记录。

【1】Kd是受体与配体之间的亲和力,而Ki和IC50是在加入了抑制剂后,对于受体与配体结合的抑制作用。

(2)与IC50/EC50一样定义活性化合物/Ki/Kd≤10μM,无活性化合物为IC50/EC50/
Ki/Kd>10μM。
对于“标准类型”为Inhi bition的记录,我们检查了化合物浓度的“含量测定说明”,以确定它们是活性的还是非活性的。然后,记录不能被分类为活跃或非活跃(例如IC50>5μM或30μM下抑制>70%),并从数据集中删除

(3)对于具有多个活性记录的化合物,活性或非活性标签由多数规则决定。如果同一化合物的活性记录相互矛盾严重,该化合物将被删除。

     因此,最终数据集由56个HME目标、97363个活动数据点和130114个非活动数据点组成。数据集的详细信息可在表S1中找到。


方法

MetaHMEI的总体框架

如图1所示,MetaHMEI的总体架构由以下三个模块组成。

(1)自我监督的预培训模块。MetaHMEI使用化合物的简化分子输入(SMILES)作为输入来训练预测模型。MetaHMEI首先利用子结构标记化方法来获得SMILES的子结构词汇表。然后,使用Mol2vec从大型未标记的化学数据集(例如ChEMBL)中获得分子亚结构嵌入。所学习的子结构嵌入传达化学语义,并确保指向化学相关子结构的相似方向。

(2)基于元学习的预测模型。然后将子结构嵌入输入到基于Transformer的编码器中,以生成化合物的全面和高质量的矢量表示(SMILES)。我们提出的预测模型采用了多任务元学习框架,从具有足够样本的HME中学习一个良好的广义模型,该模型可以快速适应具有有限样本的目标HME。由于MetaHMEI允许有效学习将从具有足够样本的HME学习到的先验知识转移到具有少量样本的HMEs,因此所提出的模型可以对具有有限数据的HME产生准确的预测。
(3)三目标任务适应模块。目标任务(即样本不足的HME预测任务)通过相对于其支持集的一个或几个梯度步骤来调整元训练阶段期间学习的先验知识,并最终产生目标任务特有的参数。

化合物子结构的自监督预训练
基于元学习的HME预测模型

实验结果

实验设置

     我们在组蛋白修饰酶的三个数据集(HDMHDACHMT,由于可用于实验的HAT任务数量太少,我们将它们排除在验证实验中)上进行实验,以评估所提出的方法。在实验中,我们选择了一个酶家族中具有足够样本的几个HME作为元训练任务,选择了具有不足样本的几个HME作为元测试任务

        在每项任务中,化合物HME之间的关系可以分为活性非活跃。活性实例意味着该化合物在该HME上是活性的,而非活性实例意味著该化合物在此HME上不是活性的,并且每个化合物都由其SMILES唯一表示。实验数据集的详细信息如表1所示。

   基于每个任务的10倍交叉验证(10-CV),我们用10个随机种子进行了10次实验,并计算AUC的平均值,以评估每个任务的性能。AUC越接近1,任务的预测性能就越好。根据实验结果,我们设置了梯度支持集的下降步长α设置为0.004,查询集的梯度下降步长β设置为0.0001。对于所有元训练任务,支持集大小被设置为5,查询集大小被设为256。

HDM数据集的所有任务上的三层MLP,以及所有其他数据集的全部任务上的两层MLP。自注意机制的变换矩阵的值被初始化为1。实验代码是基于开源机器学习框架Pytorch实现的(https://pytorch.org).所有实验都在Windows 10操作系统上进行,使用intel W-2245 8核3.91GHz CPU和128G内存的Dell Precision T5820工作站计算机和NVIDIA TITAN RTX 24G GPU。

基准

以下两种关于分子性质预测的最新方法被用作基线,以与我们提出的方法进行性能比较。

(1) MolTrans:它将化合物和蛋白质视为线性结构,并充分利用大量未标记的生物医学数据,通过频繁的连续子序列(FCS)来学习子结构信息。它构建了一个增强的转换器编码器,以获得化合物和蛋白质之间的相互作用矩阵;最后,通过CNN从相互作用矩阵中提取信息,得到化合物与蛋白质关系的预测结果。

(2)MetaMGNN:第一种基于元学习的分子性质预测方法。它将化合物视为图结构,并通过预训练的图神经网络(preGNN)学习化合物的潜在表示。通过基于梯度的元学习算法MAML学习模型的参数。为了增强元训练过程,它使用了自监督模块来充分利用分子图中的未标记信息。

     为了全面评估MetaHMEI的性能,除了其他人最近发表的两篇研究著作作为比较方法外,我们还设计并实现了MetaHMEI两种变体方法,命名为MetaECFP和TransferHMEI,将它们的预测性能与MetaHMEI进行比较。

(3)MetaECFP:它基于Morgan算法的扩展连接性指纹(ECFP),并编码重原子(即。
非氢)形成给定直径的多个环形层。在MetaECFP中,化合物的ECFP是通过调用rdkit(www.rdkit.org)获得的,多层MLP用作主动预测分类器。然后,使用具有足够样本的HME作为元训练任务来训练多层MLP以获得元参数。通过小样本调整元参数来获得样本不足的目标任务的模型。值得注意的是,MetaECFP和MetaHMEI之间的主要区别在于,这两种方法使用不同的复合表示,即MetaECFP只使用ECFP fin gerprint,而MetaHMEI使用预训练和基于Transformer的复合表示。

4)TransferHMEI:它使用与MetaHMEI相同的预训练和基于Trans-former的复合表示学习模型。然而,TransferHMEI是一个基于迁移学习的模型[26],即首先在具有足够数量样本的任务上对模型进行预训练,然后将模型适应于小样本,以获得目标任务模型。

影响TrustworthyCPI性能的因素

MetaHMEI中使用了三个超参数,

(1)r用于控制在子结构划分过程中将每个原子视为子结构的半径。当r等于0时,每个原子本身被认为是一个子结构。

(2) s用于在元训练过程中控制每次迭代中的支持集的大小。

(3) q用于在元训练过程中的每次迭代中控制查询集的大小。在HMEDB上进行了实验,以研究这些因素对MetaHMEI性能的影响。
       我们固定参数s=5,q=256,并将r分别设置为0,1,2,3,并在HDM和HDAC数据集上进行实验。实验结果如图2所示。这个y轴表示模型在不同r值下对HDM数据集中的五个测试任务和HDAC数据集中的七个测试任务的平均AUC。从图2可以看出,当我们的子结构的划分半径设置为0时,即当每个原子本身被视为一个子结构时,该模型在HDM和HDAC上的性能最差,而当半径设置为1时,在HDM或HDAC上都达到了最佳性能。

       我们固定其他参数r=1,q=256,并将s分别设置为5、10、30、50、70,并在HDM、HDAC数据集上进行实验。实验结果如图3所示。y轴表示模型在不同s值下对HDM数据集中的五个测试任务和HDAC数据集中的七个测试任务的平均AUC。从图3中可以看出,随着支持集大小的增加,模型在HDM和HDAC上的性能逐渐降低。

     我们在HDM、HDAC数据集上进行了实验,参数r=1、s=5和q分别为16、32、64、128、256、384。实验结果如图4所示。y轴表示模型在不同q值下对HDM数据集中的五个测试任务和HDAC数据集中的七个测试任务的平均AUC。从图4中可以看出,模型在HDM和HDAC上的性能随着查询集大小的增加而逐渐提高。当q=256时,性能达到最大值,然后随着查询集大小的不断增加而减小。

MetaHMEI的预测性能

      在这些实验中,我们将MetaHMEI的预测性能与其他基线在三组HME上的预测性能进行了比较,即HDM、HDAC和HMT,其中对于HDM,HDAC和HDT 5/5、7/7和6/6元训练任务/少量射击测试任务(如表1所述)分别用于训练模型和评估性能。我们比较了所有方法在两种少数镜头样本情况下的预测性能,即1镜头和5镜头。在单镜头情况下,任务模型仅使用一个活动样本和一个非活动样本来调整元模型(或预训练模型)。在5个热点的情况下,任务模型只使用五个活动样本和五个非活动样本来适应元模型(或预训练模型)。

     如表2和表3所示,我们可以看到,在两种少数注射适应情况下,我们提出的MetaHMEI在AUC指标方面明显优于其他基线。特别是,在1次注射的情况下,我们的方法在HDM、HDAC和HMT任务组上分别比最佳比较基线MetaMGNN好1.82%、5.75%和4.89%。在5个热点的情况下。我们的方法比最好的方法分别好4.85%、6.85%和3.06%分别在HDM、HDAC和HMT任务组上比较基线MetaMGNN。


讨论

     MetaHMEI令人满意的性能可以通过以下因素来解释。首先,我们可以从比较结果中看到,与没有知识转移的模型(即MolTrans与其他方法相比)相比,基于任务之间有效知识转移的模式获得了更好的预测结果。
     其次,在样本有限的情况下,使用“学习-学习”的元学习模型比使用“先学习后微调”的迁移学习模型具有更好的泛化性能
     从MetaHMEI和TransferHMEI之间的比较结果可以看出。最后,如MetaHMEI与MetaECFP和MetaMGNN的比较结果所示,通过自监督预训练方法在大量未标记化合物上获得的高质量分子亚结构嵌入和Transformer编码器学习的化合物特征表示也有效地提高了MetaHMEI的预测性能。

案例研究

JMJD3(KDM6B)作为HDM jumonji家族的一员,负责去除组蛋白H3赖氨酸27(H3K27me3特异性脱甲基酶)上的三甲基化。JMJD3的功能与免疫系统疾病、癌症、传染病等人类疾病相关,JMJD3已成为潜在的治疗靶点,尤其是对炎症和自身免疫疾病[27,28]。尽管2012年已经报道了高效抑制剂GSK-J1/J4,其对JMJD3的半数最大抑制浓度(IC50)为60 nM,但ChEMBL数据库中记录的抑制剂不到100种(IC50<10μM),而且仍然没有JMJD3抑制剂被批准用于人类疾病治疗。在这种情况下,发现多种有效的JMJD3抑制剂对于开发靶向该酶的药物线索以及进一步了解HDM的功能至关重要。为了进一步评估我们提出的组蛋白抑制剂筛选模型的有效性,我们对JMJD3进行了案例研究,筛选过程如图5所示。

       我们将MetaHMEI应用于少量靶向JMJD3的已知样品,并获得了JMJD3抑制剂预测模型。然后使用该模型预测TopScience数据库中50万种化合物的JMJD3抑制活性。然后,选择5000个预测得分最高的化合物进行分子对接(详细信息见支持信息。)为了确保选择用于生化实验的化合物的结构多样性,Discovery Studio根据ECFP6将5000个候选分子(250个分子)中排名前5%的分子分为40类。然后,从每一类中选择0-2个分子,得到15种从TopScience公司购买的化合物。有限公司对JMJD3的抑制试验。

       选择的化合物对JMJD3的酶抑制活性由中华人民共和国上海有限公司ChemPartner有限公司测试。为了进行初步筛选,对单一化合物浓度(50μM)下的抑制率进行了重复测试。对于IC50估计,使用AlphaLisa测定法测量每种化合物的五种浓度,起始点为50μM,梯度稀释5倍。使用GSK-J1作为参考化合物。提供了enzy-matic抑制测定的原始数据作为支持信息(表S1,图S1,见在线补充数据,网址:https://github.com/ljatynu/MetaHMEI/)。如图6所示,化合物2、7和13表现出潜在的活性,IC50分别为7.64、2.99和6.27μM。通过分子对接研究了这些化合物与JMJD3之间的相互作用模式(图7)。化合物2和7与的K1381、N1400和R1246形成三个氢键。JMJD3催化袋,但与Co2+只有一种螯合作用。化合物13虽然失去了与R1246的氢键,但与Co2+发生了双齿相互作用,这与高效抑制剂GSK-J1/J4[29]类似。这可以解释化合物13与化合物2和7相比具有更好的抑制活性。这是首次报道这三种化合物对JMJD3的抑制活性,为进一步优化和开发JMJD3抑制剂提供了新的思路。


结论

      在这项工作中,我们提出了一种基于元学习的预测方法MetaHMEI,以解决HME抑制剂预测中的少数镜头问题。实验结果表明,当训练样本有限时,MetaHMEI在预测激酶特异性磷酸化位点方面优于现有方法。MetaHMEI将化合物视为序列结构,以学习其特征向量表示。我们充分利用了子结构之间的信息。通过元学习,我们的模型学习了一个初始化良好的模型参数,该参数可以快速适应出现他的音调的抑制剂预测问题。我们在收集的数据集上进行了足够的实验来评估我们的模型,并将其与其他基线进行了比较。实验表明,我们的模型优于其他方法。我们还将我们的模型应用于组蛋白JMJD3抑制剂的虚拟筛选过程,并成功获得了3种抑制剂,显示了我们模型的有效性。

  • 30
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

卿云阁

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值