《2022 Artificial Intelligence in Drug Design》 笔记--第一章:人工智能在药物设计中的应用:机遇与挑战

前言

药物设计的过程是一个漫长,复杂和昂贵的过程,但近年来AL/ML/DL爆炸性的发展,极大程度上促进了药物设计的发展,有望改变设计-制造-测试-分析的(DMTA)周期,加快药物设计的过程,降低成本。
本书旨在提供药物设计中AL/ML/DL方法的发展和应用的最新技术的概述.主题还包括:
1.如何应对这些新技术方法加速和革新传统的药物设计方法,如admet、药物动力学、药物靶标停留时间等。
2.这些新方法的应用范围以及它们在哪些方面最大限度地影响当前以及未来的生产率。

第一章:人工智能在药物设计中的应用:机遇与挑战

摘要

AI近年来发展迅速,已成功应用于药物设计等现实问题。在本章中,我们回顾了人工智能在药物设计问题中的应用,包括虚拟筛选、计算机辅助合成规划和从头分子生成,重点讨论了人工智能在其中应用的局限性和改进的机遇。此外,我们还讨论了人工智能在将理论实践转化为现实世界药物设计方面带来的更广泛的挑战;包括量化预测不确定性和解释模型行为

1.引言:药物设计面临哪些挑战?

药物获批率大大下降,药物研发成本过高,降低制药成本最有效的方法是提高临床试验的成功率。因此开发有效的算法来帮助设计一个新的候选药物是我们感兴趣的领域。本章我们讨论人工智能的发展,旨在帮助药物设计。
在这里插入图片描述
图1在药物发现和开发的不同阶段,效率提高(所需时间、失败率或成本减少20%)所产生的潜在节省。

设计成功的候选药物需要在药物设计的早期阶段选择化合物,这些化合物可以被有效地优化以获得适当的性质。药物设计的主要阶段如表1所示。
在这里插入图片描述

通过筛选大型化合物文库,可以发现具有良好活性的化合物;可以使用各种技术,包括在目标生物分子上测量化合物活性的生化/生物物理分析,以及在基于细胞或器官模型系统中测量化合物功效的表型分析[11]。现代筛选文库包含数百万种不同的化合物;然而,无论使用哪种方法,寻找具有适当特性的新奇“热门”用于开发都是极其具有挑战性的。最近的分析表明结果显示,43%的临床候选药物来自已知化合物,例如以前的临床候选药物[12]。具有良好效力和吸收、分布、代谢、排泄和毒性(ADMET)特性的HITS被选为“先导化合物”–这些需要在保持适当ADMET轮廓的同时优化效力和选择性[4]。从临床试验的成功率来看,很明显,这一过程在寻找具有正确的药效学和药代动力学特性的分子方面往往无效[1]。基于靶点的筛选通常会导致具有意想不到的药效学特性的HITS,这可能是由于它们的非靶点效应;虽然表型筛选措施在体内药效学方面更有效,但在未知靶点的情况下优化结果HITS的效力可能是具有挑战性的。此外,由于药代动力学不佳或意外毒性,来自任何来源的命中都可能在稍后阶段证明问题。因此,药物设计中计算方法的最重要目标应该是在药物设计过程中帮助选择最有可能在患者身上表现出适当行为的化合物。

已经收集了许多关于化合物的性质、反应和相互作用的数据集;然而,这些数据不成比例地集中在一小部分经过充分研究的端点。虽然一些目标蛋白有数千种化合物生物活性的报道,但在CHEMBL7748个目标蛋白中有5640个[13]。有不到100个缔合化合物。此外,描述化合物体外活性的数据集使描述其体内效应的数据集相形见绌;ChEMBL包含1600万个生物活性测量数据,而描述肝脏毒性的DILIRank[14]数据集仅包含1036个定性数据点。此外,分子的生物活性依赖于剂量、时间和测试系统的可变性,这使得对这些数据的一致注释具有挑战性[3]。然而,这些数据集中包含的信息是建立预测化合物在体内行为的模型的关键资源;虽然可以有效地进行物理模拟来估计配体与目标生物分子的相对结合自由能[15],但对复杂的生理系统进行模拟的希望很小,如血脑屏障[16],因此需要使用经验模型。经验模型,如定量结构-活性/性质关系(QSAR/QSPR)方法,其中使用机器学习(ML)模型来预测分子的性质,已被广泛用于辅助新药的设计,特别是通过促进适当的ADME曲线和避免常见的毒性模式[9,17]。用于化学数据的常见机器学习模型包括随机森林和支持向量机,它们接受被称为“化学指纹”的描述符的矢量作为输入[9]。最近,深度神经网络迅速流行起来;它们通过处理smiles字符串或分子图等输入,避免了指纹选择的需要,并可以执行更复杂的任务,如多任务学习。然而,与其他模型一样,它们的性能往往受到可用数据的限制[19,20]。

这些ML模型可用于创建“人工智能”系统,以辅助药物设计的决策[21]。展示人工智能的系统展示了类似人类的解决问题的技能;当提供信息时,它们可以识别模式,并就行动过程提出建议或做出决定[21,22]。在本章中,我们描述了解决药物设计中一些最紧迫问题的ML方法,重点介绍了这些方法取得重大进展的三个关键领域:虚拟筛选、计算机辅助合成规划(CASP)和通过生成模型生成从头分子。如果能够创建在这些领域做出有效决策的人工智能系统,这将大大有助于候选药物的设计。然而,目前流行的ML中的许多方法在没有专家干预的情况下无法提供在现实世界的药物设计问题中做出决策所需的信息;经常遇到的限制是缺乏对预测置信度的有效沟通和对用户的机械推理。这些问题将在本章的最后一节进行探讨。

2.人工智能在药物设计中的应用

2.1虚拟筛选

2.1.1引言

药物发现流程中的第一步是从大型化学库中鉴定活性化合物(HIT化合物)。目前,这一步骤主要由高通量筛选(HTS)[23]主导。HTS根据项目相关活动分析筛选大型化学库。这具有通过实验测量活动的优势,而不是用电子计算机来估计它们。

然而,HTS并不总是合适的。对大型文库进行实验性筛选成本高昂,而且这些数据库只覆盖一小部分化学空间。此外,并不是每一种分析都能在足够大的范围内进行;通常,在收集的实验数据的数量和这种数据的质量之间存在权衡,这种权衡必须为每一种分析单独地平衡。

另一种方法是虚拟筛选(VS),它既可以作为HTS的补充,也可以作为HTS的替代。VS试图通过在电子计算机中而不是在体外筛选化合物来解决HTS的缺点,这更便宜,而且不限于分子数据库。通常,VS实现了活性物质的浓缩,从而提高了命中率并降低了下游实验的成本[24]。在存在明确的设计假设(例如已验证的目标)的情况下尤其如此。然而,就像许多其他的电子计算机方法一样,VS是近似的,可能会做出错误的预测。当这种情况发生时,不活跃的分子可能被标记为假阳性,这导致在后续的下游分析中浪费宝贵的资源和时间。因此,提高VS的富集率仍然是必要的。

VS可以分为两种类型,基于配体的和基于结构的。基于配体的VS使用一组已知具有活性的化合物作为参考集,并试图根据参考集识别其他活性分子。因为它不需要任何关于生物系统的机械信息,所以当目标生物分子的结构未知时,或者当多个目标可能时,此方法是合适的。然而,为了成功,它需要一个具有足够表达能力的预测性模型,以确定活性化合物的优先顺序。

相反,基于结构的VS基于其3D结构与靶的结合口袋的互补性来评估配体是否可能结合靶。这种机理研究可以为药物设计过程提供非常多的信息,但3D信息很难获得,而且并不是每个目标都有结构。此外,基于结构的VS中使用的软件通常是单一的,不能容易地针对新的或特定的目标进行定制。例如对接应用程序,如Autodock Vina[25]或Glide[26]。

ML提供了一系列灵活、强大和数据驱动的新方法。在本节中,我们回顾了ML在VS中药物设计中的应用实例,突出了它们所展示的机遇和挑战。我们还指出了在使用VS的化学数据时需要考虑的关键因素。

2.1.2基于机器学习的虚拟筛选中的数据集偏差

如果一个数据集的数据点不是从底层总体中随机均匀地选择的,则称其为有偏的。因此,得到的样本与实际的数据分布并不完全匹配。在实践中,大多数数据集都存在一定程度的偏差。为了从数据中做出推断并推广到新的、不可见的数据点,重要的是要意识到训练和测试数据集中的偏差,以及它们可能如何影响ML模型在实践中的适用性。

由于几个原因,在VS中使用的分子数据集存在偏差。首先,相对于实际的空间,它们的数量相对较小。尽管化学数据库在过去几年中增长迅速,其中一些化合物达到数亿个化合物[27],但它们仍然只覆盖小分子化学空间的一小部分[28],或估计由多达1060个分子组成的“类药物”化学空间[29]。其次,药品开发管道的性质也导致了偏差。合成工作通常集中在已知的成功分子上,而不是产生不相关的样本。此外,新的分子设计经常被串联提出,在命中选择和引线优化期间逐渐增长[30]。因此,化学空间的探测区域是由团簇形成的,而不是均匀的样品。

这些限制意味着实验者应该小心他们如何拆分用于训练和测试的数据集[31]。存在不同的拆分策略,每种策略都有自己的优势和局限性。通常的随机分割方法(包括交叉验证)很容易实现,但由于数据中的冗余,通常会导致过于乐观的结果。如果来自同一簇的不同分子被分成训练和测试集,信息可能会从测试集泄漏到训练集,因为这些分子可能共享相同或相似的支架。这导致了对模型性能的高估,因为模型可能识别类似物而不是泛化[32]。与随机拆分不同的一种尝试缓解信息泄漏的方法是集群分割。这种策略使用普通的无监督学习方法(如k-均值)或特定于化学的聚类技术(如Butina-Taylor[33,34])对分子进行聚类,然后将每个聚类分配到训练集或测试集[31,32]。然而,聚类分裂可能会低估泛化,因为在现实世界中,我们希望训练集与测试集共享一些支架,以便做出可靠的推理。另一种分割方法是按时间分割数据,这样在特定日期之前在数据库中注册的所有分子都被放入训练集,并且分子被注册在此日期之后,转到测试集[35,36]。这种方法将数据视为时间序列,更好地模拟了预期验证,但它提出了一个基本假设,即过去和未来化学空间的增长速度和方向将是相似的。

实验者应该意识到的另一个警告是,缺乏普遍接受的化学数据集来评估VS的模型。虽然其他研究领域有被学术界广泛接受的标准化基准数据集(例如用于计算机视觉的手写数字的MNIST数据集[37],但化学空间的偏差和药物化学问题的异质性将使药物发现很难找到像MNIST这样的基准数据集。尽管如此,通用参考基准数据集的概念是可以理解的,而且已经有人尝试生成一个参考数据集。在某些情况下,为一个特定领域开发的基准数据集被错误地应用为其他内容的基准数据集。一个例子是有用的诱饵(DUD-E)数据集[38]。DUD-E含有一系列靶蛋白的活性配体和诱饵配体。诱饵是根据分子质量、logP或净电荷等物理性质与活性分子相匹配的。DUD-E最初是用来评估对接算法的,但从那时起,它也被广泛用于对ML模型进行基准测试[39-42]。然而,DUD-E中使用的属性匹配并不会使活动对象和诱骗对象对ML无法区分,这可能是因为数据驱动的ML模型可以在数据点中提取超出简单物理属性的细微差别[39,43]。**因此,使用DUD-E来证明ML算法的性能远高于对接软件的研究[41,44,45]可能高估了ML的预测能力。**其他尝试生成通用的基准参考数据集也试图构建一组人工去偏向的分子集。例如,最大无偏验证(MUV)[46]和不对称验证嵌入(AVE)[47],它们根据活性、非活性物质的聚集以及活性物质是否均匀地嵌入非活性物质来衡量偏差。然而,删除数据点以减少偏差可能会导致保留数据的性能较差,或许是因为这些数据点包含有用的信息[47]。此外,偏差并不总是不受欢迎的:例如,我们可以人为地使用显示出理想属性的分子来偏向我们的数据集,以偏向于这些理想属性分子的选中。

总而言之,没有一种正确的方法可以为每个VS任务设计和拆分数据集。模型应该根据它们试图解决的问题去定制基准进行评估,实践者应该意识到每种策略的优势和局限性。

2.1.3基于受体结构的虚拟筛选

给定一个已知3D 结构的配体和靶蛋白受体,基于结构的 VS 尝试利用结构信息来预测它们是否会相互作用。基于结构的 VS 存在多种技术,包括结合位点相似性 [48, 49]、药效团映射 [50] 和对接 [51, 52]。对接是一种启发式技术,由两部分组成:对接算法和评分函数。对接算法预测最有可能与受体结合的姿态,而评分函数提供一个分数,代表对姿态的置信度和预测的结合自由能。根据软件的不同,这两个部分可以一起实现或相互正交[53]。

大多数基于结构的 VS 的 ML 方法都专注于改进评分功能,显示出作为现有算法补充的巨大前景。一些模型,如 Gnina [45, 54] 或 AtomNet [44] 已经开发了自己的独立评分功能。作为输入,两者都使用了外部产生的姿态的体素化,作为预测器,都使用了一个简单的卷积神经网络 (CNN),该网络最多包含四个卷积层和两个全连接层。尽管 CNN 架构很简单,但它们比基线对接软件更能区分活性和非活性[25, 55]。这凸显了 ML 用于 VS 的机遇之一:使用正确的数据,实现在训练任务中具有竞争力的模型相对容易。然而,在选择最佳姿态时,Gnina 在基线对接算法方面表现不佳,其得分与亲和性无关。这说明了泛化的挑战:通常,基于物理的模拟方法在训练外任务中的表现优于 ML,当标记数据量不足时,它们具有优势。其他用于评分的 ML 模型试图改进而不是取代现有的评分功能。例如,ΔVinaRF 是一个随机森林回归模型,在 Autodock Vina 包的残差上进行训练,以提高其与实验的亲和性的相关性 [56]。除了增加这种相关性外,在化合物排序、识别正确的对接姿态和区分活性和非活性方面,它还优于 Autodock Vina 和其他最先进的对接包。

改进评分功能的另一种方法是根据感兴趣的问题对其进行调整。定制背后的基本原理是结合位点是高度专业化的,因此与配体的相互作用可以通过专门的评分函数更好地描述。与可能需要数年才能开发的传统对接算法相反 [25, 58-62],ML 模型的训练速度使其适合快速定制。例如,CNN 已被用于为不同的蛋白质家族获得不同的评分函数 [63],并且基于深度学习的配对电位已被用于为单个目标生成评分函数 [64]。在这两种情况下,与目标类不可知模型相比,由此得到的分数更难预测绑定。无论是针对单个受体的项目还是针对多个受体的项目,这些自定义评分函数可能在实践中有所帮助。

到目前为止,本节中描述的所有改进都与评分功能有关。当前 ML 模型相对于其他对接算法的一个重要限制是它们通常缺乏生成对接姿态的能力,因此它们依赖外部软件来获取它们 [44,45,56,64]。考虑到姿态生成是对接算法的基本部分,这是一个显著的缺点——因为 ML 模型的性能受到外部姿势生成性能的限制。然而,数据驱动模型正在取得进展,该模型在结合口袋 [65] 的背景下生成分子的 3D 结构,这可以适用于姿势生成,尽管这种方法受到结合配体的小型数据库的限制,使得应用数据驱动模型更具挑战性。在撰写本文时,PDBbind [66] 被认为是公共领域中最大的具有相关亲和性的结构蛋白配体信息数据库,它仅包含 17,679 种化合物的条目。相比之下,用于分子生成(不考虑 3D 结构)的生成式 ML 模型通常在数十万 [67, 68] 甚至数百万 [69] 的示例上进行训练,以达到最先进的性能。除了数据限制之外,ML 模型还可以通过识别受体的结合口袋来帮助从业者确定在哪里进行姿态搜索(即对接盒)[70]。

2.1.4基于配体的虚拟筛选

在基于配体的 VS 中,使用分子表示作为监督学习模型的输入来预测感兴趣的属性。与基于结构的 VS 类似,它可用于预测与受体蛋白的亲和性。然而,基于配体的 VS 的特点是它不利用有关受体的任何信息。因此,它也可以应用于目标未知的更一般的问题,例如表型筛选 [71],或者不存在单个目标受体的问题,只要有足够的相关数据来解决这些问题。例如表型效应,如抗菌活性 [72] 或药理学特性,如 ADMET(吸收、分布、代谢、排泄/消除和毒性)[73]。

基于配体的方法的一个常见例子是 QSAR 模型,它将分子结构的描述符与这些分子的物理特性或生物活性联系起来 [74]。从概念上讲,经典的 QSAR 模型(例如线性回归)和最近应用的 ML 方法(例如深度神经网络)是相似的:两者都是识别分子数据中的信息以学习目标信号的监督方法。但在实践中,更多最近的 ML 模型通常容量更高,即它们能够拟合复杂、高度非线性的目标函数。当然,ML 模型找到这种细微差别模式的能力首先取决于是否有足够的数据可用。在药物化学中,这可能是有问题的,因为实验测量很昂贵,因此标记的数据集往往很小 [75, 76]。

除了拟合复杂的目标函数外,最近 ML 模型的更高容量还允许更广泛的分子表示,其中一些非常抽象。这会使得那些无法从传统的QSAR模型中学习的新型数据得到学习。可以对化合物的生物学效应产生原始见解的新颖有趣数据集的示例是**分子诱导的转录组特征或细胞绘画成像图谱。**诸如基于网络的集成细胞特征库 (LINCS) 等数据库包含来自癌细胞系中超过 19,000 个小分子的超过一百万个基因表达谱 [77],提供了大量有价值的信息,这些信息可能会被使用在 VS 中。例如,将基因表达谱应用于 VS 的一种方法是预测能够在患病细胞中恢复健康转录组特征的分子。这种策略以前已在实验中用于鉴定具有治疗精神分裂症潜力的药物 [78]。另一方面,细胞绘制轮廓数据已成功应用于获得可用于基于配体的 VS 的预测模型。在一项研究中,基于细胞绘画扰动曲线的模型在预测细胞毒性和细胞增殖终点方面的表现优于基于摩根指纹的模型 [79]。这些结果表明,新的数据类型可以为 VS 带来显著的改进。

除了使用新的生物数据类型之外,一些 ML 模型的另一个优点是它们可以从数据集中学习自己的特征。因此,数据特征可以直接针对感兴趣的任务进行定制。例如,分子可以表示为来自 SMILES-to-SMILES 变分自动编码器的潜在向量 [67、68、80]。变分自编码器是一种神经网络模型,由编码器、隐式空间和解码器组成,经过训练使其输出与输入相同(图 2a)。隐式空间的大小通常小于输入,因此模型被迫找到输入的压缩表示(隐式向量),以确保它在前向传递期间保留尽可能多的信息。重要的是要注意,VAE 表示通常不限于可解释,并且隐式向量和分子结构之间的对应关系不是不言而喻的。然而,如果有足够的数据,这些表示可能会变得非常复杂。例如,通过从两个网格中采样分子在隐式空间中的正交方向上,一些 VAE 可以产生相应的 2D 化合物网格,这些化合物可以平滑地变化,最多可以有一个原子的微小差异 [80]。为了使这成为可能,底层的隐式向量表示必须达到高粒度。 VAE 还允许我们操纵表示以发挥我们的优势,例如通过自定义它们以感兴趣的问题。在 VAE 的情况下,这可以通过添加一个预测器模块并与编码器和解码器联合训练来实现(图 2b)。这种被称为“预测训练”的方法可以显著提高模型的预测性能,这可能对基于配体的 VS 有用,相对于完全无监督的 VAE [81] 的隐式向量。所有这些结果都表明ML(神经网络)对 VS 的巨大潜力。

在这里插入图片描述
图2可变自动编码器体系结构。(A)经典的变分自动编码器由将输入映射到隐式向量的编码器和试图从其对应的隐式向量恢复输入的解码器组成。(B)在带预测的训练模型中,额外的预测器模块从隐式向量估计感兴趣的分子属性。由于预测器、编码器和解码器都被同时训练以减少重建和预测误差,因此该策略可以获得更能预测感兴趣属性的隐式向量。

一些 ML 模型接受灵活的训练方案,这为改进基于配体的 VS 提供了另一个机会。例如,如果没有足够的数据可用于感兴趣的任务,则仍然可以通过将来自其他任务的信息与足够的数据相结合来构建高性能模型。有几种基于共享知识理念的培训方法。其中之一是迁移学习,它将旧任务的信息整合到感兴趣的新任务中,例如通过微调(图 3a)。微调不是从头开始训练新模型,而是将预训练模型作为起点,并将旧任务中学习的参数调整到新任务 [82]。这种方法已被证明可以减少所需的数据量,并提高各种生物活性和 ADMET 终点的性能 [82-85]。当迁移学习发挥到极致,新任务只包含少数标记的分子[86],它被称为少样本学习[87]。跨任务共享知识的另一种训练策略是多任务学习,其中训练单个模型以同时解决多个相关任务 [88, 89](图 3b)。多任务学习可以帮助利用许多标记绑定或 ADMET 数据集,这些数据集太小而无法单独使用,但可能会累积大量信息。最后,共享知识的训练机制的另一个例子是自我监督学习,它建立在迁移学习和无监督学习的思想基础上[90]。自我监督学习不是从其他标记数据集中转移知识,而是自动将自己的虚拟标签分配给未标记数据并从中学习。然后,对模型进行微调以适应感兴趣的任务。至关重要的是,自监督任务的计算成本必须很低。分子自我监督任务的示例包括屏蔽和预测 SMILES 字符串中的字符 [91] 或预测官能团的存在或不存在 [69]。
在这里插入图片描述
图3鼓励跨任务和数据集共享知识的ML模型的培训制度。(A)微调是迁移学习的一种形式,首先在大数据集上训练模型,然后在较小的数据集上进行小幅调整。(B)多任务学习同时在几个任务或数据集上训练模型。这样,来自某些任务的信息可能有助于学习其他任务。©自我监督学习通过为每个数据点分配人工的、易于生成的标签并在该合成数据集上训练模型来利用大型未标记数据集。然后,可以针对实际任务对模型进行微调(未显示)

带预测的训练或迁移学习是ML的高度多功能性的例子。存在许多高度模块化和自适应的可能的数据表示、体系结构和培训制度。然而,灵活性也带来了实际困难。这种高度的选择使得人们很难事先决定哪种模型对于特定问题是最有前景的。更复杂的是,这些文献包含了哪些模型在哪些任务上是最佳的相互矛盾的信息。例如,一项通用的比较研究评估了179个分类器(包括21个神经网络)在来自UCI机器学习库[92]的121个数据集上的预测结果,发现随机森林在大多数任务中取得了最好的结果[93]。另一项针对药物发现评估了神经网络和随机森林在 15 个公共数据集和未明确数量的默克专有数据集上的性能,涵盖了一系列结合亲和力和 ADMET 端点的性能。作者发现,神经网络通常可以比随机森林做出更好的预测 [43]。另一项也比较了随机森林和神经网络的研究报告了在预测癌细胞系的 IC50 值时也是神经网络更好 [94]。目前尚不清楚此类比较分析之间的分歧是否是由于超参数优化的差异或基准数据的特殊性,或者这些差异将如何转化为新的数据集。事实上,已经表明,在测试集上具有相似预测性能的不同 ML 模型可以在测试集上可能选择截然不同的分子 [95]。同样,找到最好的分子表示仍然是一个悬而未决的问题。一些研究报告说,当使用源自神经网络和图卷积的指纹 [96] 时性能更好,而另一些研究则表明,ECFP [97] 等固定指纹优于平均值 [98]。

确定最佳模型或分子表示的一些挑战在于,很难诊断ML方法成功的原因。这种可解释性的缺乏在药物发现应用中变得关系很大。例如,最近发现的抗生素候选化合物Halicin[72]被认为是人工智能在药物发现方面的巨大成功[99],特别是因为验证包括(动物)在体内的工作,以确定该试剂的有效性。在这项研究中,作者训练了一个图形神经网络来识别抗生素,并使用它来对药物再利用中心中的分子进行排序[100]。然后,他们在实验室中测试了前99个分子对大肠杆菌的作用,发现其中51个分子显示出实验活性。最后,他们从这些化合物中手动选择了一个候选化合物进行进一步的实验验证。候选药物大黄素显示出抗生素活性,并在体内小鼠模型中抑制了细菌感染。显然,这些实验表明,ML模型能够学习复杂的黑盒功能,如抗生素活性。然而,图神经网络的筛选性能没有与更简单的QSAR方法进行比较,因此不确定神经网络是否真的是解决该问题的最佳算法。此外,选择halicin作为最终候选药物仍然需要根据人类定义的规则进行专家选择。因此,在没有进一步的比较分析的情况下,人类对深度学习模型的相对贡献可以说是不清楚的。由于这些因素,这种方法是否可移植并将有助于发现其他新的抗生素,以及为其他治疗领域的药物发现提供好处,仍有待观察。

2.1.5混合VS

混合VS指的是生物活性预测的统计模型,其中包含了关于受体的信息,但形式比结合口袋的几何描述更抽象,例如在对接中。混合方法通常被认为是基于配体的VS和QSAR的扩展,因为它们使用了相似的技术,尽管在不同的输入变量空间[101,102]。

最常见的混合VS是蛋白质化学模型(PCM)[102,103]。它们通常在靶受体已知但其结构未知的情况下应用,因此不可能采用对接等结构性方法。相反,它试图通过使用类似于配体的靶标描述符来利用受体身份信息。然后,它通过创建蛋白质-配体相互作用对的模型来利用这种靶标表示,而不是像传统的QSAR中那样创建单个靶标。这些模型可以协同学习,从而使对一个目标的预测受益于其他目标的数据[101]。因此,它们可以被视为一种多任务学习。

由于混合VS使用的统计方法类似于基于配体的VS,因此上一节中讨论的许多机会和限制也适用于这里。PCM的一个例子是输入表示的灵活性和可定制化。虽然配体描述符已经得到了广泛的研究,**但关于最优目标表示的文献较少[104],因此产生有用的目标表示的方法具有实用价值。**从深度学习中得出的表示在这方面可能很有用。例如,一个名为DeepDTA的模型通过将CNN应用于氨基酸序列来学习蛋白质表示,并使用这些表示来预测结合亲和力[105]。受这项工作的启发,其他作者提出了DGraphDTA,这是一种从蛋白质3D结构中的氨基酸图学习蛋白质表示的图形神经网络[106]。不难想象,其他从深度学习衍生的蛋白质表示,如VAE隐式向量[107]或用CNN[108]处理的体素化,或许在未来会应用于PCM模型。PCM的另一个机会是建立与大数据制度相适应的模型。例如,最初为大规模推荐引擎开发的技术,如协作过滤,可以应用于适合蛋白质-配体相互作用对的全基因组二进制分类器[109]。与深度学习类似,协作过滤可以学习其自己的表示,从而省去了手动决定最佳目标描述符的需要[103]。这些发展领域表明,ML给基于配体的VS带来的许多进步也可能使PCM模型和基于混合的VS受益。

ML可能对PCM模型有用的另一个领域是不确定性量化。公共化学数据库,如PubChem或CHEMBL[13,27]是高度异质的,数据点来自不同的化验和实验室相关的错误 [110-113]。由于预测误差受实验误差的限制,并且对于不同的目标可能会有所不同,因此在异构数据库上训练的单个 PCM 模型可以提供具有不同准确度的预测。因此,最好为每个单独的预测获得不确定性的估计。鉴于贝叶斯预测是完整的后验而不是点估计,贝叶斯 ML 框架在这方面可能很有用。最近一项将高斯过程应用于 PCM 的工作发现,该贝叶斯模型为每个预测实现了校准的方差估计 [114]。换句话说,高斯过程比不准确的预测更能确定准确的预测。因此,贝叶斯框架允许从业者评估某个预测是否可信,以决定是否将其用于下游应用程序进行化合物选择。

最后,ML 还可用于设计不同于 PCM 的新型混合工作流程。例如,当目标结构已知但对接不可行时,可以使用混合方法来加速基于结构的 VS,因为化合物库非常大。在这种情况下,一种可能的混合工作流程是只对接一个小子集以获得训练集,在该集上训练一个监督模型,然后预测库其余部分的对接分数,其中未执行对接。这就是 DeepDocking 采用的策略,这是一种筛选数十亿种化合物的深度神经网络 [115]。这种方法更快,因为诸如神经网络之类的统计模型评估起来很便宜,因为每个数据点都是通过单个前向传递来处理的。相比之下,基于物理的模拟方法(例如对接)依赖于昂贵的迭代过程,例如需要许多 CPU 周期的能量最小化。重要的是,要使这种方法实际有用,统计模型必须具有足够的容量来拟合对接评分函数。使用线性回归等传统 QSAR 方法无法逼近像这样的高度非线性函数,但现在可以通过深度学习和其他 ML 算法来实现 [115]。

2.1.6机遇

如本节所示,ML 算法在改进药物发现中的 VS 方面具有巨大潜力。一个特别有前途的研究领域是聚合来自不同来源的数据,以促进在低数据状态下的学习。考虑到大型化学数据库是异构且稀疏的,这一点尤其重要。可以帮助实现数据聚合的两个训练框架是迁移学习和多任务学习。考虑到收集大分子库的实验标签是不可行的,另一个可能对提高 VS 生产率的领域是未标记数据的利用。自监督学习是一种巧妙的框架来实现这一点。最后,另一个可以为 VS 带来实质性改进的途径是从新型数据中学习。这可能是经典 QSAR 方法无法轻松训练的生物数据类型,例如转录组特征或细胞绘制轮廓,或者是针对感兴趣的数据集量身定制的强大的学习表示,例如来自 VAE 的隐式向量。

2.1.7结论

越来越多的研究表明,只要有足够的相关数据可用,ML 方法可以在一系列应用中胜过传统的 VS,无论是基于配体还是基于结构。除了通常的高性能之外,ML 模型还可用于查找小分子和受体的高度抽象和表达性表示,以及利用以前 VS 无法访问的新型数据。此外,ML 模型可以利用各种新颖的数据类型并构建分子结构的学习表示。然而,机器学习算法的灵活性意味着在基准评估中应特别小心,以确保获得的结果是可推广的。否则,模型可能会检测到目标以外的信号,并且可能会高估其性能。

2.2计算机辅助合成计划

2.2.1引言

化学合成是现实世界药物设计的核心支柱;将理论上可接受的分子转化为实验可及的分子是体外和体内验证的基础。平均而言,设计-测试-分析 (DMTA) 周期的化学合成阶段可能需要 8-12 周 [116],对整个 DMTA 周期时间的贡献最大。此外,如果一种分子成功进入药物发现的临床阶段,甚至被批准用于患者,则必须扩大合成规模,因此合成的成本、时间和产率变得至关重要。

通常,合成路线所需的最终产物是固定的(即选定的分子),但起点不是;因此,合成是从产物向后计划的,如图 4 所示。这种理论实践被称为逆合成——通过断开键将分子分裂成前体,从而产生反应性官能团,这些官能团可以反应形成目标。重复这个过程,直到所有前体都被分解成可商购的起始材料。合成路线的成功和效率取决于许多变量,其关键原则是:
(1)反应物是否会形成所需的产物;
(2) 生成产物的程度,即生成产物的收率;
(3) 找到进行反应的最佳试剂和条件;
(4) 就步骤 1-3 和用户定义的参数(例如,最便宜的路线、试剂可用性、最高产率、最少合成步骤)而言,选择的逆合成断开是否是最佳策略。
为了实现有意义的结果,计算机辅助合成计划 (CASP) 以及在 CASP 中利用 AI 必须适当地考虑这四个关键原则(进一步考虑动态变化,例如起始材料的成本和可用性在实践中也很有价值)。
在这里插入图片描述
图4基于FDA批准的药物acalabrutinib[117]的假想的逆合成步骤,以说明在计算机辅助合成计划中需要考虑的关键问题。(1)反应物是否会形成所需的产物。(2)产物形成的程度,即产率取决于(3)找到进行反应的最佳试剂和条件。(4)考虑到步骤1-3和所有替代/进一步断开步骤,所选择的反合成断开是否是最佳策略

基于 AI 的 CASP 可以进一步分为更成熟的基于规则的方法或更新的基于 ML 的方法。表 2 显示了这些方法之间的这种区别和一些概念上的差异,并将在此处进一步讨论,并更加强调最近基于 ML 的 CASP。
表2基于规则和基于机器学习的人工智能CASP方法的比较。
在这里插入图片描述

2.2.2基于规则的计算机辅助综合规划

自 Corey 等人的开创性工作以来,CASP 程序已被用于增强合成设计。大约五年前 [131],产生了应用于合成分析 (LHASA) 程序的逻辑和启发式方法 [132]。早期基于规则的程序使用手动编码的转换规则(由专家编码)描述反应中心(具有修饰键的原子)和可能影响反应性的官能团。然后通过例如决策树或子结构匹配 [133] 在查询分子结构中找到匹配的反应中心,以进行逆合成分析。这种方法可以对反应规则进行复杂的控制,包括更广泛的反应背景和限制,例如需要官能团保护或指定区域选择性或立体选择性。结果是一个准确且值得信赖的库可以很容易地应用于新查询结构的转换规则。然而,这种方法的手工编码性质限制了图书馆开发的速度,导致范围比文献先例小得多。此外,获得新的化学反应知识可能与现有规则相矛盾。

后续的基于规则的 CASP 程序(今天使用,参见表 2)自动从反应数据库中提取转换规则 [134]。此外,提取的转换规则可以映射到负责任的文献优先级,为最终用户提供信心[135]。允许更大的转化库具有更广泛的反应化学覆盖。这种优势是以牺牲转换规则细节为代价的,因为竞争的官能团不太可能在文献中报告(下面将进一步讨论),因此被纳入转换规则中。此外,反应中心可能无法解释完整的反应机制,例如需要激活基团的迈克尔加成,因此添加了元级规则以额外检查基于某些反应类型的激活基团 [133]。尽管较小转换规则中包含的详细信息已正确说明反应范围和限制,基于规则的 CASP 程序已经经历了相对彻底的前瞻性验证,证明成功应用(见表 2)。

2.2.3反应数据

将基于 ML 的模型集成到 CASP 中固有地受到反应数据可用性和质量的限制,其程度大于对规则定义(和修饰转换规则)具有更精细控制水平的基于数据提取规则的方法。表 3 总结了公开可用的、基于 ML 的 CASP 算法和已发布协议的当前使用数据的数据源和数量。使用的数据仅由五个策展人主导,其中只有两个是公开的。大多数报告的 CASP 算法都使用或研究不止一种策展。

文献——主要文献主要由 Reaxys [138] 等商业公司手动整理,将反应信息汇总到大型数据库中(约 5500 万个反应,见表 3)。由于报告反应的异质性以及文本、图形、表格和图像的可互换使用,从主要文献中进行文本挖掘是一项更具挑战性的任务。期刊许可和数据挖掘政策使挖掘数据公开的可能性进一步复杂化。因此,人工管理的劳动密集型过程导致需要许可证才能使用此类数据库。因此,大多数使用商业数据库的 CASP 程序也需要许可证才能使用或本身就是商业产品,例如表 2 中列出的基于规则的程序。这限制了学术机构对此类 CASP 程序的访问和开发,因为公开可用的数据库是通常要小得多(见表 3)。克服这些障碍提供了一个重要的机会,可以为公开可用的数据库贡献数百万更多的反应,并进一步提高 ML 的性能——它在“大数据”中表现最好。最近 Beard 等人,挖掘文献数据的能力正在慢慢变得更容易处理。报道了利用 ML 破译图中公开的化学结构的开源工具,将它们转换为更机器可读的格式,精度约为 83-100% [142]。

专利——直到最近,机构才能够开发使用机器学习从数据中学习的 CASP 程序 [122];由于对化学专利文本挖掘的改进,D. Lowe 最初从美国专利商标局 (USPTO) [143] 挖掘了 424,621 条反应(并且此后发布了更新数据 [139])。然而,文本挖掘很容易出现错误和不一致,即使在格式一致的文档中也是如此。因此,例如专利,在正确识别所报告的反应方面引入了一定程度的不确定性(其中化学身份识别的准确率为 88.9%,在 91.8% 的案例中识别出正确的作用)。因此,不仅在数据提取方面,而且在更一致的报告方面仍有改进的余地。

电子实验室笔记本(ELN)——然而,迄今为止讨论的反应数据可能表现出对成功反应的偏见,因为专利和文献中很少报道不成功的反应。然而,负数据对于为 ML 算法构建平衡数据集至关重要。 ELN 被制药公司最详尽地用于记录实验,其中包含不受成功影响的化学反应数据。 NextMove 软件中的 HazELNut [141] 等商业工具可用于将此类 ELN 数据提取到机器可读的反应数据库中。特别是,阿斯利康比较了其基于 ELN 的反应数据集子集(约 400,000 个成功反应)的使用,显示出独特反应模板与商业数据库和专利来源的互补覆盖,重要的是基于训练数据集的不同预测性能(在尽管模板覆盖率较低,但建议合成路线)[124]。然而,这类反应数据具有商业敏感性,因为它反映了工业公司的优先事项,阻碍了开发尽可能大的数据集的方法的进展。

反应偏差——无论反应数据的可用性和来源如何,对某些反应类型的稀疏性和固有偏差为使用 ML 带来了额外的挑战。正如 Bostrom 等人所讨论的那样。 [144],药物中 83% 的环系统是在 1983 年之前开发的(2014 年进行的研究)[145];化学数据库中所有已知的环系统仅占化学可行环系统的 1.4%(2017 年进行的研究)[146]; Journal of Medicinal Chemistry [147] 中确定的五种反应类型占主要制药公司发表的药物发现相关反应的约 80%(2017 年进行的研究)[148]。这表明与探索新的反应类型和目标分子相比,人们更倾向于复制已完成的工作,这可能是由合成的高成本和时间要求驱动的,不要忘记化学家的人类偏见,即重复以前对他们有用的东西。这种偏差需要由 CASP 程序适当处理,例如 Thakkar 等人。报告说,简单的搜索算法偏向于最常见的反应[124]。如果在 CASP 程序中没有适当处理这种偏差,建议的路线可能是训练数据中最常见的路线(例如,图 4 中假设的酰胺键形成,是所有反应类型中最常见的 [147],尽管没有处于专利中报告的任何合成步骤中)并且不一定是最佳的。天真地采用类似的基于 ML 的 CASP 程序训练有偏数据可能会进一步加剧在反应数据中观察到的本已极端的偏差——因为执业化学家遵循建议的合成步骤并将结果添加到未来的训练数据集中。这种反应偏差在最近的 ML 驱动方法中通常很难解决,基于模板的方法进一步过滤掉罕见的反应以减少数据集中的噪声。正如 Thakkar 等人所证明的那样,它是模板覆盖和增加的噪声之间的良好平衡 [124]。到目前为止,仅通过监测 CASP 算法 [126] 建议的反应类别的概率来凭经验检查反应偏差。然而,将这个问题整合到模型架构、训练数据管理或对如何最好地识别和解决这个问题的稳健评估还有待观察。

2.2.4基于机器学习的计算机辅助综合规划

正向反应预测——许多基于 ML 的方法学变体已应用于大量可用的反应数据(例如,由 D. Lowe [139] 挖掘)。更具体地说,应用于基于反应物预测反应的主要产物的问题。这是一项比 ML 方法处理的常见监督学习任务更具挑战性的任务,即预测与数据实例相关的类或值。相反,该模型需要一个适当的输出表示来转换为产品分子结构。此外,文献中只报道了积极的反应,减少了了解这些模型没有从各自的反应物形成哪些产物所需的消极数据。科利等人。通过首先将任务建模为预测对反应中心原子的编辑(即键序变化)来解决这些问题,其次通过将 1689 个提取的反应模板应用于 UPSTO 数据集 [122] 中的 15,000 个反应物来增强化学上可信的负数据(类似地由 Segler 等人 [128] 完成)。这种方法在将真实产品排名为模型最可能输出方面实现了 71.8% 的准确度。然而,这种方法仍然受到自动模板提取和原子映射的固有局限性的限制,例如没有考虑更广泛的反应上下文(在这种情况下,通过计算受周围上下文影响的原子特征来规避,例如邻居的数量)。此外,丢弃不太常见的反应模板以减少噪音;然而,如前所述,这可能会进一步加剧反应数据的偏差,因此在罕见反应的前瞻性病例中表现更差。 Coley 等人随后改进了这种方法。通过使用 Weisfeiler-Lehman 网络 [129],类似地学习反应物形成产物所需的键编辑。这允许以无模板的方式对反应物进行全面建模,而无需计算枚举的负数据。结果是平均提高了 85.6% 的准确度,在频繁发生的反应上表现最好(>90%),在罕见反应上表现最差(60-80%,这可能是基于模板的过滤掉不常见反应的方法的改进)。此外,该模型的性能与人类化学家相当。或者,受自然语言处理 [149] 启发的机器学习算法对翻译问题进行建模(例如,将英文句子翻译成法文)也规避了需要负数据进行分类或反应模板的问题。例如,施瓦勒等人。使用这样的模型将反应物和试剂转化为其报告的产物,在可比较的数据集 [150] 上实现了 90.4% 的显著准确率,而无需指定反应模板。更重要的是,它们证明了在噪声更大的数据上的令人鼓舞的表现,预处理更少,还包括立体信息(76.4%),这是一个重要的实际考虑因素。这种方法在 80 个反应的基准集上优于人类化学家,尽管仍然表明在罕见反应上表现不佳。事实上,这些基于语言的模型也被证明可以隐式地学习基于模板的模型所需的原子映射[151],甚至在基准研究中优于启发式方法[152]。在任何方法中都没有考虑到完整的反应环境(即试剂和条件)。因此,这些模型仅隐含地考虑了“典型”条件。总体而言,在预测正向反应方面取得了很大进展,并且已经克服了一些障碍,例如有限的负面数据报告。尽管在处理完整的反应上下文和产生的噪声数据时,方法仍然需要改进,尤其是对于罕见的反应(在 ML 中从数据中学习时自然会受到影响)。

产率预测——虽然在预测反应物最可能的反应产物方面取得了重大进展,但在试剂和条件(例如溶剂、催化剂、温度)的背景下预测反应的成功程度更具挑战性的压力)。由于目前从专利中挖掘的可用数据包含条件注释不一致的稀疏信息 [122],此外,来自 [139] 的 1,808,937 个反应中有 1,112,316 个不包含挖掘的反应产率。即使存在产率,该值(即反应成功/失败的程度)也会被其他更难以量化的因素(例如项目性质、试剂质量或执业化学家的技能/经验)进一步混淆.事实上,基于机器学习的方法已经证明在解决这个问题方面进展相对缓慢。一个例外是 Schwaller 等人最近的一项研究。谁扩展了自然语言处理类型的 ML 模型来预测反应产量 [153]。作者发现,对于特定反应类型的干净、精选数据集(实现 0.95 和 0.79 的 R2),可以实现可接受的性能,但当扩展到涵盖更广泛反应类型的嘈杂、不完整和稀疏的 USPTO 数据集时;性能显着下降(R2 约为 0.1–0.2)。因此,数量不足或其他不理想数据所施加的限制严重限制了 ML 算法的性能。

条件预测——除了能够预测产率之外,预测反应成功的正确条件甚至更好的是,预测给定反应的最大产率的条件是至关重要的。其中反应条件的微小变化可能是成功与失败的区别,并进一步节省时间和资源进行实验条件优化。该原则尚未解决经常通过 ML 方法作为此处讨论的其他原则。例外情况包括 Marcou 等人。他在 222 个迈克尔加成反应的小型数据集上构建了模型(更传统地用于定量构效关系 (QSAR)),例如随机森林,以对反应物和条件之间的兼容性以及反应可行性进行分类。尽管报告的单个模型的准确度高于 0.7 [154],但当同时考虑溶剂和催化剂时,52 个预测中只有 8 个与基本事实相符。 Coley 等人对使用 ML 预测反应条件进行了更广泛的尝试[155] 。 来自 Reaxys [156] 的一千万个反应。这被解决为一个高维多分类问题,基于每个反应具有一种催化剂、两种溶剂、两种试剂和相关的温度(其中任何一个都可以归类为无效)。这将高维空间限制在最常见的条件下,并通过丢弃少于 100 次出现的任何催化剂/溶剂/试剂进一步受到限制。所采用的分层神经网络(根据先前选择的条件的上下文顺序预测条件)在 50.1% 的测试集的前三个预测中发现了所有五个报告的条件。但是,重要的是要在这里考虑,与报告的条件不匹配的预测不一定是“不正确的”,因为多个条件可能导致特定反应的成功(即,特定成功条件可能没有优先级)。当考虑“接近”条件(即类似的溶剂)时,相应的指标增加到 53.2%。这些结果强调了预测反应条件的难度,不仅涉及不完整的数据,还涉及对此类灵活参数(例如,溶剂数量、注释压力等)的建模,甚至评估此类模型的难度(并不总是知道基本事实)。

逆合成策略——无论反应预测是通过手工编码规则还是 ML 算法建模,都存在寻找大量潜在逆合成可能性以找到合适合成路线的后续问题。这个问题可以被认为是一个难以理解的大空间中的决策问题。首先,需要在给定产品的情况下找到可能的反应物,这通常被视为正向反应预测的逆问题,并且通过在模型训练期间交换输入和输出来进行类似的建模。例如,学习给定产品 [128, 130] 的适用反应模板,或使用基于自然语言的模型 [126, 157] 将产品翻译成反应物。然而,评估更加困难,因为据报道的低准确度为 59% [157],这并不能说明许多可能的反应物可以形成产品。 Schwaller 等人提出的新指标,例如往返精度。通过使用正向反应预测模型检查提议的反应物的百分比来解决这些问题[126]。尽管对其他模型存在直观的虚假依赖性,但正向反应预测模型的性能足够好(>90%),这甚至比不推断逆合成预测的质量要好。据报道,使用往返精度,ca。 80% 的建议逆合成步骤在基于自然语言的模型中是合理的 [126]。然而,鉴于合理的逆合成建议,仍然需要一种遍历反应空间直到找到可用起始材料的最佳策略。 Segler 等人的开创性工作。通过使用蒙特卡洛树搜索(一种强化学习方法)结合神经网络函数来帮助搜索这个空间 [128] 来解决这个问题,在每个查询 60 秒内为大约 92% 的测试集确定合理的合成路线(相比之下,启发式 bestfirst 搜索确定了大约 4% 的路线)。研究生水平的化学家对合成路线质量的双盲评估没有显著地区分模型生成的路线与文献报道的路线。虽然这种方法没有公开发布,但它激发了开源实现 [124]。然而,由于缺乏准确的预测方法(例如,R2 ~ 0.1-0.2 的产量预测)以及立体特异性信息,许多变量仍可能被排除在决策过程之外,例如规模、产量或条件。使用的训练数据(但是,包含会导致更差的预测性能)。然而,实际需求正在慢慢得到解决,例如,在设计合成计划以考虑多种目标化合物、减少中间步骤和所需的总体材料方面正在取得进展[158]。最后,如果模型仍然无法解释,即预测与特定文献优先级之间没有直接联系,则基于 ML 的 CASP 程序的采用将受到限制。特别是由于模型输出中经常缺乏准确的产量和条件预测,商业启发式方法至少将实践者推荐给类似的报告合成路线,然后获得产量和条件。

2.2.5预测新的化学反应

除了使用 CASP 程序确定目标化合物的最佳合成路线外,新化学反应的发现对于避免在反应数据中观察到的偏差和推进新反应研究也至关重要。新提出的反应也可能为当前的反应类型提供更环保、更有效或更便宜的应对选择。塞格勒等人。提出当将反应数据建模为半反应时,发明新反应是可能的分子反应图的启发式链接预测[128]。其他初步工作表明,当仅将反应视为其反应中心时,可以通过生成模型提出新的路线[159];然而,在撰写本文时,这还没有经过实验验证。预测新反应的能力值得进一步研究,因为基于规则的方法不能推广到新反应,因为反应模板的特异性限制了基于模板的方法的普遍性[124]。

2.2.6与机器人集成

自动化化学的下一步自然是从自动化合成计划到通过机器人技术自动执行合成。Coley 等人最近展示了这方面的进展,他们将 ASKCOS CASP 平台 [123] 与机器人平台集成以进行流动化学 [130]。不仅通过实验验证了 ASKCOS 平台(结合此处讨论的方法 [122、129、130、155]),而且还证明了与机器人平台的集成,成功合成了 15 种药学相关的小分子(产率为 32-95%)。然而,这仍然需要人工干预和专家输入来修改建议的反应条件,以解决实际限制,例如堵塞风险、常用试剂流、更便宜的催化剂或提高温度以减少停留时间。进行了另一项修改以避免与试剂相关的急性毒性,突出了基于 ML 的 CASP 的局限性,即没有将风险评估(或其他实际方面,如可持续性)整合到 CASP 程序中——因为这些通常不会在反应数据中注释,因此两者都没有集成到逆合成策略网络中。此外,预测的逆合成步骤必须手动转换为机器可读格式或“化学配方文件”。但是,如 Vaucher 等人所示,ML 也可用于辅助此过程。 [160]。这项工作展示了使用自然语言模型将人类书面指令(从专利中提取)的句子转换为自动化友好的格式(例如,添加乙酸乙酯;等待 30 分钟),在 73% 的情况下达到 90% 的准确率。尽管结果并不完美,就像许多 ML 模型一样,但这表明了令人鼓舞的第一步,可以使用更多的注释数据进行进一步改进(以至于数据生成不首先依赖于不完美的基于规则的方法,就像这种情况一样这里)。 CASP 和机器人技术之间的差距也正在从机器人技术方面弥合,使用 Chemputer [161, 162] 对机器人技术的反应模式进行了更正式的定义。显然,要弥合 CASP 和机器人技术之间的差距,需要取得更多进展,主要包括自动化合成的实际方面,例如与化学品相关的风险(因为在一段时间内仍需要人工干预,即使只是补充试剂供应),或从反应混合物中识别和纯化反应产物。尽管如此,初步结果还是很有希望的。

2.2.7机遇

目前,人工智能在合成预测领域的应用似乎出现了以下重大机遇:首先,“数字玻璃器皿”[163]等新技术可能会提高反应数据的质量和数量。这样的数据集可以显着提高预测反应产率和条件的模型的质量。其次,针对进一步合成方法的 CASP 工具的开发,例如生物催化 [164],因此,更多类似天然产物的化合物(通常具有更多 sp3 中心)可以显著地帮助扩展药物化学家的工具箱 [144]。最后,用于预测逆向和正向合成的充分且普遍接受的基准是缺乏。此类测试将允许更客观地衡量该领域的进展(当然,这取决于用于此类目的的特定基准数据集)。

2.2.8结论

机器学习在计算机辅助合成规划领域取得了重大进展,并克服了重大障碍,例如,可用数据中没有失败的反应。此外,与许多商业化的基于规则的前辈不同,许多实现是开源的或免费提供的。然而,CASP 中基于 ML 的新 AI 方法的发展受到反应数据的访问和质量的显着限制,反应数据通常是稀疏的、嘈杂的、部分不正确的和令人难以置信的偏差。实际上,CASP 与其他领域的计算方法一样,不太可能取代实验化学家,尽管“使用 AI 的化学家很可能会取代那些不使用的化学家”[165]。

2.3从头分子生成

2.3.1引言

与本章讨论的其他部分倾向于引用判别方法(根据给定示例预测标签)相比,生成模型代替构造给定标签的数据实例。在药物设计的背景下,这些模型试图找到达到预期终点的分子结构。在实践中,这个问题极难回答,最终是围绕药物设计的关键原则。可以说,这个问题最具挑战性的方面是,在许多情况下,终点并不明确,即分子必须具有哪些精确的特性组合。

从概念上讲,这个问题通常通过称为设计-制造-测试-分析 (DMTA) 循环的迭代设计过程来解决 [116]。聘请科学家团队通过有针对性的试错法优化分子设计以达到理想的属性空间:理论化分子设计变化,综合结果设计,通过过多的体外/体内试验测量终点的变化,并在理论化新的理论之前分析结果设计变更等等。经过多年的优化(每个假设周期需要 4-8 周或更长时间 [116, 166])。
在这里插入图片描述
图5显示了人工智能驱动的生成性模型的作用,它充当设计-制造-测试-分析(DMTA)周期的设计阶段的内环(有关DMTA的更多详细信息,请参阅参考文献。116)。一个人工智能驱动的产生式模型框架在生物信息学中经历了生成、评估、优化阶段(见图4)。这试图提高更昂贵和更耗时的外部DMTA环路的效率。可以使用来自外部来源的数据来训练生成模型,从先前的外部循环反馈以微调模型,或训练用于评估的评分函数

理想的生成模型将在 DMTA 循环的设计阶段充当生物信息学内部循环(如图 5 所示),这将有助于更快、更便宜且可能更智能地获得理想解决方案——减少时间和资源需求在通往候选药物的道路上。事实上,一些生成模型出版物已经声称通过在短短 21 天内发现候选药物来实现这种加速 [167],尽管这种说法并非没有受到考证 [168, 169]。考虑到理想生成模型的潜在影响,在学术界中,可以理解为什么在化学领域寻找理想生成模型非常活跃 [170, 171]。

三十年来,化学中的生成模型一直是一个活跃的研究领域,因为早期的计算机辅助从头药物设计算法(出于所有意图和目的,生成模型)可以追溯到大约 1989 年 [172]。如施耐德等人所述。 [173],这些早期模型必须解决三个主要目标:如何构建/生成化学结构,如何评估/评分分子质量以及如何有效地搜索/优化化学空间。这方面的一个例子是结构的增长(生成)以受体结合口袋为条件,其空间约束和氢键位点(评估)并使用深度或广度优先算法来探索可能性(搜索),如骨架[172, 174]。存在这三个原则的几种算法变体;例如,普通搜索算法包括深度/面包优先搜索 [172, 174]、随机搜索 [175]、蒙特卡洛采样 [176] 或进化算法 [177, 178]。尽管有很多研究关注和算法变化,但所有早期模型都难以充分搜索化学空间的组合爆炸,据估计该组合爆炸与 1060 个小分子一样大 [29]。
在这里插入图片描述
图6生成模型原理图,即基于规则和基于分布的生成模型。虚线表示对目标导向的生成模型的扩展,在该模型中,分子在连续的反馈循环中被生成、评估和优化。分子可以通过许多代理评分函数进行评估,更多详细信息请参见表5

今天,存在大量的生成模型类型(将在后面的章节中进一步阐述),尽管生成、评估和优化的三个主要目标仍然存在(见图 6)。然而,最近围绕 AI 和生成模型的许多兴奋点都指向了在生成模型中使用人工神经网络和深度学习,这仅在 2016/2017 年以后才引起 [67, 195]——在本章中称为深度学习生成模型。这种采用人工神经网络的关键优势是能够从大量数据(数百万个虚拟分子结构的库)中学习,从而隐式学习生成新的从头分子结构所需的规则。考虑到化学中生成模型领域的时代,这就引出了一个问题;深度生成模型的曙光是关键吗?
为简化起见,本章指的是属于以下两类之一的所有模型类型(如图 6 所示):
(1)基于规则的模型,其中化学结构构建指令是硬编码的(例如,基于图的遗传算法 [196] )
(2)基于分布的模型,其中化学结构生成是从数据中学习的(例如,在 SMILES 字符串数据库上训练的递归神经网络 [195])。前者可以包括传统的生成模型或深度生成模型,而后者几乎完全由深度生成模型组成,因为机器学习需要从数据中学习统计规律。表 4 显示了这两种方法之间属性-方法依赖关系的进一步比较。

表4从生成模型中抽样的从头分子的常见要求以及基于规则或基于分布的生成模型的依赖关系比较。基于分布式的产生式模型的引入带来了对数据和算法的更复杂的依赖
在这里插入图片描述

2.3.2从头分子生成的要求

通用于所有生成模型,它们必须在生成分子的基本任务中表现良好(总结在表 4 中),需要考虑的主要因素如下。首先,生成的分子应该是有效的并遵守化学原理,例如化合价。其次,生成的分子相对于模型应该是唯一的(即模型不应该一遍又一遍地再生相同的分子),除非这个分子是“完美的解决方案”,如果不测试所有可能的分子就无法证明。第三,生成的分子应该是新颖的,不属于训练模型所需的数据——这是与虚拟筛选方法的关键区别。然而,值得注意的是,新颖性的满足并不能保证与训练数据的相似程度(根据不同的任务,高度相似可能是可取的,也可能是不可取的)。第四,生成的分子表现出高度的多样性并且不占据非常狭窄的化学空间区域通常是有利的,除非这个化学空间是“最优化的”,这也不容易证明。最后,生成的分子应该是合成可行的,即可以在实验室中合成,因为分子总是需要进行实验测试,如果成功,就需要扩大生产。

然而,在实践中,这些基本要求的属性也难以测量。一些出版物引入了一组通用指标 [197, 198],它们试图将有效性和多样性等属性作为单个数值来衡量。虽然使用计算工具包(例如,RDKit [199])来检查有效性相对容易,但像多样性这样的属性仍然更难以以稳健和可解释的方式作为单个值来衡量。扩展多样性示例,一个建议的近似度量是内部多样性,即基于摩根指纹(扩展连接指纹的一种实现 [97])生成的集合 [200] 中所有分子之间的平均 Tanimoto 距离。首先,通过取平均值,数据集分布的概念完全丢失。其次,自 1999 年以来,人们就知道 Morgan 指纹的 Tanimoto 距离受到重原子数的严重混淆[201],并且由于共享位数少,它在低相似度范围内也具有相当低的分辨率出现在这种情况下。因此,可以想象内部多样性也可能与生成集的重原子分布数相关。最近的工作进一步表明,这些基本属性无法区分复杂模型和幼稚(简单)模型。更具体地说,伦茨等人。表明根据当前指标[202],从训练集中采样并添加碳的幼稚模型与“最先进的”方法具有竞争力。因此,能够(1)更好地捕捉更有意义的分子特性和(2)区分表现良好的复杂模型和幼稚模型的更好的描述性指标将显着有益于该领域。我们在这里讨论这两者,更多地关注药物设计中从头分子的有意义的特性和要求。

2.3.3目标导向的从头分子生成的要求

不用说,即使生成模型生成了多种有效的、新颖的和合成可行的分子,它也不能保证生成的分子是合适的候选药物。为此,分子必须具备其他必要的特性(示例如表 5 所示)。由于事先不知道精确所需的属性,因此生成模型通常会进行迭代优化,以引导分子生成朝向所需的属性空间(类似于 DMTA 迭代)。这可以通过使用评分函数(表 5 中显示的示例)来评估分子和优化算法的适用性来实现,例如遗传算法 [196]、贝叶斯优化 [67] 和强化学习 [203] 等等。因此,在实践中,我们努力追求的通常是目标导向的生成模型。

用于评估从头分子并因此指导分子生成的评分函数有其自身的局限性,如表 5 中所讨论的。评分函数陷阱的一个共同主题,也与它们在生成模型中的使用无关,是两者之间的巨大脱节属性端点和评分函数代理(即应该表示端点属性的函数)。例如,从生物学功效的生物鸿沟(例如,减少疾病进展)到靶向活性(例如,结合亲和力和作用方式)到实施代理(例如,预测单个蛋白质结合测定的 pIC50 的 QSAR 模型)。首先,由于未捕获许多复杂的依赖关系,该措施仅代表靶向活性,例如效应大小(例如抑制百分比)、作用方式(可能需要特定的残基相互作用才能发挥特定的下游效应) ,结合动力学(例如,理想的范围可能受蛋白质周转的影响),以及对其他特性如生物利用度的共同依赖性。更不用说,从靶向活性到生物功效的差距取决于靶向活性下游的更多因素,并且可能高度依赖于个体。 Me´ndez-Lucio 等人实施了弥合生成模型中这一差距的最接近的已知尝试,其中模型被训练以使用生成对抗网络生成以基因表达谱(目标活动下游)为条件的分子 [204 ],以及使用细胞形态学的类似方法[205]。这些方法当然试图缩小生物学差距,尽管所包含的信息往往更嘈杂(因此信号更难以识别),这引入了新的混杂变量,例如不同的细胞系,并且通常没有明确的联系终点,如疗效或毒性。最终,此处数据的数量和可用性有限是进一步研究的重要限制因素。

表 5 中未讨论的其他限制包括生成模型在优化评分函数时的行为,这可能会进一步加剧评分函数的限制。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

最近 Renz 等人。观察了生成模型对生成针对 QSAR 模型数据拆分或超参数设置优化的分子的敏感性 [202],证明了有限的 QSAR 模型适用于对从头分子生成的影响。正如 Olivecrona 等人所建议的那样。 “任何与生成模型结合使用的预测模型都应涵盖其适用范围内的广泛化学空间,因为它最初必须评估用于构建先验的数据集的代表性结构”[203]。换句话说,在训练期间的某个时刻,模型可能会评估其适用范围之外的分子,从而导致异常预测,因此评估模型置信度(本章其他地方讨论)非常重要。

在现实中,我们不能只优化单个属性,我们需要同时优化多个属性的组合,其中通常有不止一个可能的属性组合是帕累托最优的(一些属性是最优的,而另一些属性是最优的)。在多参数/多目标优化(MPO/MOO)中同时优化所有期望属性的能力是一个难点,在出版物中常常被忽视。通常,所得到的属性预测被总结为单个数值(如在强化学习中),并随后用于指导生成模型。如果没有为每种属性提供显式数值的生成模型,我们怎么能相信这种“黑箱”技术(即深度生成模型)能够在给定的药物发现环境中学习有意义的东西。此外,我们如何证明它已经学会了如何首先优化单一属性,更不用说多个属性了。

2.3.4目标导向去新分子生成的性能评价

考虑到针对相关端点的生成性模型优化相关的困难,重要的是衡量模型性能,以确定一个模型在任务中是否足够,或者在任务中是否比其他模型更好(即基准)。衡量模型性能的宝贵的标准是合成从头分子,并对照为其优化代理的性质进行实验测试(例如,蛋白质结合试验[167,206])。然而,考虑到实验资源需求、需要评估的新的生成模型的数量以及每个模型提出的从头分子的数量(高达数十亿[207]),这对于所有模型来说都是棘手的。基准测试套件有 MOSES[198]和GuacaMol[197];不过,只有GuacaMol对目标导向的优化进行了基准测试。此外,提出的优化任务(例如,重新发现已知的药物)与实际药物设计不够相关,或者通常过于容易[197]。

除了已公布的基准之外,其他方法根据优化的评分函数通过从头分子获得的最高分数来衡量性能,例如,惩罚logP[208](通过SAcore和环数[181]惩罚logP)。不仅这项任务实际上是无关紧要的,而且评估只考虑了模型优化任意函数的能力。因此,该评估只有在该化学空间区域中的评分函数已被证明是有效的情况下才有意义(事实往往并非如此,或者很难证明)。

为了说明生成模型性能测量的困难,图7说明了文献报道的生物活性分子所占据的假设化学空间,以及由生成模型提出的从头开始的分子,该模型经过训练以优化QSAR模型(对各自的生物活性分子进行训练)。假设的目标是识别新的生物活性化学系列,类似于现实世界的药物发现。我们进一步假设所有提出的分子都是有效的,并且在合成上可行。根据内部参照(例如,与训练集的相似性)和外部参照(例如,与已知生物活性分子的相似性)对这些进行概念性评估。例如,这突出了比较图7A和图7B中的从头分子的难度。在图7A中产生分子的模型表现良好,考虑到它们与训练集相似,具有较高的QSAR模型预测的pIC50,并且类似于已知的生物活性(为QSAR预测提供信心)。然而,这些分子可能与已知的生物活性物质过于相似,因此不够新颖,不足以在实践中使用(即避免竞争知识产权)。此外,这些分子很可能使用传统的药物设计方法(例如,装饰支架和/或支架跳跃)找到,这进一步引发了人们对生成模型比传统方法在现实世界中的好处的担忧。这种情况与Zhavoronkov等人报告的情况类似。[167]、深度生成模型提出的分子后来被发现与市场上的药物非常相似(与训练集的分子相似)[168],还进一步推测,如果通过更传统的技术进行类似的发现,它甚至不会足够新颖来报告[168]。如果我们现在考虑一个负责图7B中发现的分子的模型,该模型将被认为表现不佳,由于与训练集不同,该模型将被认为表现不佳,即使分子被预测是活性的,并且相对于已知的生物活性物质来说足够新颖。首先,如果分子确实满足优化的性能要求(即预测的生物活性),它们与训练集不同重要吗?其次,现在分子处于一个新的化学空间区域,我们能在多大程度上相信QSAR预测?这些是高度依赖于上下文的开放问题。事实上,通过使用目前提出的性能衡量标准,它将是一个模型,它提出了像图7C这样的分子,由于高度优化的预测活性和与训练集的相似性-完全不考虑这样的QSAR模型在该化学空间区域的适用性,或者关于已知生物活性的新颖性,将被认为是“最先进的”。这一假设情景旨在强调相对于在实践中更有意义的外部参照来衡量绩效的重要性,尽管我们承认它们可能很难衡量。我们也希望这强调了在评估的背景下理解评分函数适用性领域的重要性。

考虑用于生成性模型评估的预期应用的背景也很重要,因为它们必须适用于现实世界的药物设计目标。例如,旨在对新靶标(即一流的)进行药物治疗的项目将没有报告的配体可用于微调或训练评分功能。生成性模型在这方面的应用还有待确定。一些模型已经利用对接作为评分功能,其中蛋白质的3D结构是可用的[209,210];然而,到目前为止,还没有得到实验验证。其他潜在的应用可能包括设计比目前市场上可获得的更好的药物(即,同类中最好的),从而使感兴趣的蛋白质靶标的配体更有可能用于微调和/或评分功能训练。在这种情况下,成功很可能取决于总体上更好的概况(例如,生物利用度、安全性等),其中良好的多参数概况将是从头分子成为候选药物的最有利的起点。此外,提议的分子必须足够新颖,不能侵犯相互竞争的知识产权。然而,MPO直到最近才受到很少的关注[211,212],典型的评估一次只针对两到三个参数进行优化。而关于现有报道的配体或现有文献的新颖性几乎从未被考虑过。我们认为,模型评估应该更多地关注未来应用的背景,以便在考虑将从头设计与生成性模型集成到现实世界项目中时,评估更具解释性。
在讨论概念性能测量和模型评估时,重要的是;在现实中,很难可靠地测量个体属性,如分子多样性(如前所述)。然而,正在进行改进。例如,在建立更可解释的指标方面,张等人。[207]通过生成GDB-13[213]中存在的特定官能团和环系的能力来比较生成模型(基于一个小子集的模型训练)–区分相对于原始化学空间保持更好化学覆盖率的模型。

也可能不清楚模型评估在多大程度上是专家干预的结果。重新访问Zhavoronkov等人。[167],作者使用了名为GENTRL的生成模型,产生了30,000个提出的结构,这些结构必须经过专业筛选并选择为仅40个化合物(其中6个是合成的,4个是活性的)。这导致难以在生成模型的性能或进行中的虚拟筛选和专家过滤之间进行划分。这一专家优先排序过程也在其他备受瞩目的人工智能应用程序中发挥了作用[72]。这些专家的干预通常在出版物的“小字体”中找到;然而,了解如何最好地从可能有数百万个从头开始的分子中选择要继续下去的分子,是实际实施生成模型的一个重要考虑因素。在生成性模型评估中,这一方面往往被忽视–但具有同等的价值。

此外,如何理解生成性模型与其他非人工智能方法相比还有待确定。最近,Steinmann等人。[214]使用遗传算法来寻找对接分数较好的分子,与之相比,他们的方法识别了1.9x比传统的虚拟筛选更多的高分分子;然而,这个方法需要对接比虚拟筛选多1.6x的分子。因此,便利性与浓缩的权衡可能有利于基于这些结果的虚拟筛选,因为筛选文库是商业上可用的,不需要合成。这种便利性和富集性的权衡在该领域被普遍低估,因为存在许多商业可用的分子库的变体(例如,ZINC[215],Enamine[216]),可以购买和测试,所需的工作量只是从头合成的一小部分。此外,与其他技术进行比较,如基于药物化学先例的生物同工酶置换[168,217],将进一步加深我们对生成模型性能的理解。

2.3.5 机遇

超越当前大多数生成模型的第一个明显步骤是从2D拓扑到3D分子结构(甚至是4D构象系综)的飞跃。然而,这项任务带来了更多的复杂性,因此,即使在用于药物设计的其他ML算法中,3D信息也不太常用(与其2D对应的算法相比)。大多数当前的生成性模型使用图形或微笑串形式的2D拓扑信息,因此,当与需要3D嵌入(例如,对接)的评分函数相结合,信息(例如电离状态、相关的生物活性互变异构体和构象状态)丢失并且不被生成模型学习。保留3D信息可能会提供更好的性能,就像科学家通过3D配体与其目标的相互作用来合理化结合亲和力一样。在受体[65,218]的背景下,使用深度生成模型进行3D分子设计已经取得了早期进展,尽管仍需要改进以进一步获得与2D生成模型观察到的结果相类似的结果。我们进一步认识到,与2D对应物(106至109)相比,可用于训练基于分布的模型的配体数据更少。至于使用3D信息进行靶标活性取决于生物活性构象,导致更小的上下文相关数据集(101到103)。事实上,忽略靶标上的活性可能更加困难,因为否则分子在溶液中以4D构象系综的形式存在,可能同样依赖于溶剂(并且通过构象搜索可以很差地近似)。总体而言,在生成性模型中集成3D信息的潜在好处超过了相关增加的复杂性–更具体地说,3D生成性模型将有助于绕过耗时的评分功能(如对接)带来的瓶颈。

生成性模型还可以受益于对更健壮和更有效的评分函数的更多研究,并可能进一步推动药物设计领域其他领域更好的ML算法(例如,准确和高效的多药理学建模)。还有机会更好地定义生成模型在低数据领域的最佳使用,方法是提高ML算法的普适性,或使用例如更快、更准确的机器学习力场来增强基于物理的评分函数。

换言之,在优化外部得分函数方面高效的新的生成模型可能会为理解得分函数行为本身提供新的机会。评分函数(例如,QSAR)通常是在来自与任何训练集相同或相似的化学空间的分子上进行评估的,因此,当分子位于该分布之外时,我们可能无法识别明显的故障案例(故障非常明显,以至于不需要负标签)。然而,具有广阔化学空间区域或导致“非类药物”分子的系统性“失效”的发生模型可能提供识别评分功能失效所需的测试案例。同样,以对接为例,生成具有最佳对接分数但看起来特殊的分子集可能有助于从经验上识别力场参数的弱点,例如超强的离子相互作用。这一替代方案具有潜在的优势据我们所知,这一观点尚未用于药物设计。

除了评分函数的改进外,更好地理解生成模型和优化评分函数的相互依赖行为也是有益的-类似于Renz等人的工作。[202]前面已经讨论过。此外,已有研究表明,将适当的属性空间预先定义为计分函数会限制生成模型的探索[219]。因此,为了更好地理解,我们还需要对不同的评分函数进行基准测试,以进行生成性模型优化(在同一任务上)。展望未来,至关重要的是利用计分功能,这些功能在设计上更加可解释的,并能够预测其自身的不确定性(见小标题3.1)。这不仅将改善模型评估,而且还可以用来鼓励生成性模型优化,以探索更多不确定的化学空间区域–如Thieed等人所示。[220]他们利用好奇心(利用预测的不确定性)来鼓励探索。理解这种相互依赖的行为很重要,简单地考虑各个部分的限制是不够的。

最后,该领域当然可以受益于更强有力的模型评估和比较–特别是考虑到研究速度太快,可能无法独立尝试每一种已发表的方法。更困难的任务和更相关的评分函数更好地概括了预期应用的背景,例如具有2-3个以上参数的MPO将提供更大的挑战,以便更容易地分离性能最好的模型。为了衡量这一点,该领域仍然需要更有意义的指标,与更专注于化学的解释相对应。

2.3.6结论

生成模型的前提是加速和高质量的药物设计。前者有一些证据[167],而后者仍然是一个具有更大潜在影响的开放研究目标(见图1)。生成性模型在药物设计的早期阶段(HIT生成)和后期阶段(先导优化)都是有用的,不同的方法可能有利于不同的阶段。尽管仍有许多进一步研究、开发和整合的机会可使该领域受益。还值得注意的是,由于使用生成模型而可能提高效率,可能会导致较少的实验筛选,这可能对数据收集产生不利影响–数据可用性(用于优化)是当前生成模型的当前限制因素之一。因此,我们需要仔细考虑如何继续收集、存储和管理数据。虽然这一领域的研究速度很快,但大多数都是由计算机科学领域衍生的新方法推动的。相反,如果研究以更严格的评估为主导,并受到未得到满足的实际应用的启发,可能会取得更有影响力的进展。

3.药物设计中人工智能决策面临的3大挑战

目前的许多人工智能系统,特别是那些依赖深度神经网络的系统,尽管其预测性能很高,但容易出现灾难性故障-这限制了它们在错误决定的后果严重时在决策中的使用,例如在药物设计的后期阶段。失败的风险可以通过建立系统来降低,这些系统可以通过估计自己的预测不确定性来避免做出糟糕的决策。此外,专家监督可用于检查模型决策过程,增加可靠性221。然而,目前许多显示出最先进准确性的人工智能系统无法在新的情况下有效地评估自己的信心,许多系统还做出了领域专家无法轻松解释的决策-这些问题阻碍了人工智能在药物设计中的应用[3]。

在这里插入图片描述

图8示意图显示了在药物设计中提高人工智能模型可靠性的方法。沙丁胺醇(沙丁胺醇)与β-1肾上腺素能受体结合,其PKI约为5.5。通过确保沙丁胺醇在模型适用范围内或通过明确估计预测不确定性,可以建立对结合亲和力预测的置信度。或者,一个可解释的模型将允许专家审查预测;可以强调沙丁胺醇对模型决策的最重要特征,或者可以确定相关的类似物,如肾上腺素(pki?5.93

3.1预测置信度

用于药物设计的ML模型的预测受到多个异质误差来源的影响,而当前的验证过程不能有效地测量这些异质误差。首先,有监督的最大似然方法通常假设未来的输入将从与训练数据相同的分布中提取[222];然而,药物设计项目通常产生以前未被表征的分子。在其训练数据的分布之外使用ML模型通常会导致通过对先前数据进行测试而不能捕捉到的不确定性水平[35]。其次,由于生物和实验的变异性,药物设计中感兴趣的许多目标变量本身是不确定的[76]。这些问题当来自不同实验室或不同化验的数据集组合在一起时,会变得更加明显,因为所产生的数据集在化学空间的不同区域可能具有不同程度的不确定性[110-113]。对预测不确定性的估计有助于诊断ML模型何时被不适当地应用。此外,比较不同模型的预测(例如目标预测)需要了解相关的不确定性。然而,评估许多提供点预测的常见ML模型的置信度是具有挑战性的[223]。典型分类模型提供的产出不是经过很好校准的概率(即,分数通常与长期结果的概率不匹配)。回归模型对输出点估计进行建模,其误差因输入而异[224]。

从理论上讲,预测不确定度可分为两部分:第一部分称为任意不确定度,是数据生成过程中固有的。除非新数据具有减小的测量误差,否则不能通过收集更多数据来减少任意不确定度。第二个组成部分是认知不确定性,当我们使用模型来概括新数据时,尽管我们不确定正确的模型结构和参数,但仍会出现这种不确定性。随着更多相关数据的收集和更好地符合数据的模型的设计,认知不确定性减少;然而,总的不确定性永远不会低于任意的不确定性[223,225]。换句话说,不可能建立一个比它所基于的数据更准确的模型。尽管任意的不确定性可以在输入空间中保持均匀(取决于问题),但当输入从训练数据分布之外提取时,认知不确定性迅速上升[226]。正因为如此,模型并不适用于输入空间的所有区域。

为了识别具有高认知不确定性的预测,可以定义模型适用域;在这些域中,性能预计将反映测试集上的性能[227]。有多种方法可以计算输入分子是否在这个领域,但使用的一个关键参数是潜在输入与训练集中分子的相似性;如果这个值很低,则做出的任何预测都不太可能是准确的。为了考虑跨训练数据的不确定性的变化,可以通过考虑模型的局部性能来改进域的边界[228]。这些方法是防止QSAR模型不适当使用的一种实用方法;然而,它们不提供对总的预测不确定性的估计[224]。

当模型的总预测不确定性在适用范围内变化时,例如当数据抽样不均匀时,估计模型的总预测不确定性很重要。在给定一个模型的情况下,摩根·托马斯等人提出了一种预测不确定性的频数方法。转换模型的预测,以提供预测的不确定性,使用一个坚持的验证集。对于回归模型,可以使用诸如保角回归的方法来定义未来预测的置信度区间[229]。对于分类模型,可以使用诸如Venn-Abers方法之类的方法将分类分数转换为经过良好校准的概率[230]。这些方法在实际化学信息学中很受欢迎,因为它们几乎不需要对现有模型进行修改;然而,尽管它们在现有数据上很好地模拟了不确定性,但它们不一定会对不同于验证集中的分布外实例给出可靠的不确定性预测;对这些实例的预测将具有很高的认知不确定性[231]。

作为这些不确定度估计的频率法的替代方法,可以使用贝叶斯模型。不是提供模型参数的点估计,而是在给定可用数据的情况下符合可能的模型参数的分布;然后以全概率分布的形式给出预测[222]。因此,这些模型的训练通常比频率模型的训练在计算上更密集;然而,当面对分布外的例子时,它们应该提供更稳健的不确定性估计[231]。近似贝叶斯方法的最新进展使它们能够应用于药物设计的各种领域[226]。它们对于主动学习过程特别有用,在主动学习过程中,模型被用来指导数据收集。当用于数据收集的资源有限时,这些方法可能会很有帮助–它们可以自动平衡寻找全局最优属性的勘探的潜在好处与利用局部最优的已知好处。开发与勘探之间的权衡需要对预测不确定性进行高效的估计[226]。

预测不确定性的估计有可能在实践中极大地提高ML预测的可靠性。尽管现有方法多种多样,但预测不确定性的估计通常没有被优先考虑;例如,在药物设计的ML方法的主要评估中并不总是考虑它[98,232]。在确认不确定性估计数方面的挑战,特别是在分配外估计数方面,是造成这一问题的原因[231]。

3.2可解释性

虽然不确定性估计是在模型预测中获得信心的一个重要方面,但它不是在高风险决策中使用模型的唯一要求;还需要手动检查这一预测与外部数据和文献的一致性[233]。此外,检查预测是否基于与结果相关的变量而不是混杂因素,对所有模型的验证都是有益的[234]。因此,用户有必要理解模型如何以及为什么做出特定的预测;
启用这种洞察力被称为可解释。模型的可解释性与复杂性密切相关;模型如何处理训练样本的完整描述几乎总是可以访问的,但如果该描述由数千个参数组成,人类将不可能理解。因此,可解释模型的预测需要简化为少量的关键参数[234]。作为构建可解释模型的另一种选择,已提出了外部解释方法,将复杂模型的选定输入和输出关联起来,以构建更简单的“元模型”[235]。一些作者[17]提出,这些外部方法使得建模的可解释性变得不必要,即使对于高风险的任务也是如此。然而,其他人认为这是一个有缺陷且具有潜在危险的结论,因为元模型不一定忠于现有模型,特别是在存在混杂因素的情况下[234,236]。我们的观点是,在任何可能的情况下,都应该首选可解释的模型,特别是在高风险任务中。

在药物设计中解释ML模型的一种方法是评估输入示例的哪些特征对模型的决策影响最大;这称为特征属性。考虑到模型所使用的特征,化学家可以评估模型是否确定了合理的结构-活性关系[237]。做到这一点的容易程度取决于所使用的模型;对于线性模型来说,提取这些信息是微不足道的,但对于完全连接的神经网络来说,这要困难得多。可以使用基于梯度的方法来研究深度神经网络对输入的处理,例如似然相关传播,其跟踪通过模型的各个输入特征的影响[234];然而,模型对这些特征的处理通常是高度非线性的。因此,基于梯度的方法提供的解释绝不是对深度神经网络如何处理输入特征的完整描述[234]。使用分子图作为输入的基于注意力的神经网络更容易解释,因为它们明确地聚焦于它们用来进行预测的分子区域[234]。如果这些注意不符合已知的重要特征,如配体-蛋白质接触中涉及的原子,则可以通过多目标训练进行调整以适应这些特征;这允许对选定特征进行机械性解释[238,239]。

人工智能系统证明其决策的另一种方式是将输入样例与相关训练样例相联系;例如,最近邻方法基于附近的训练样例进行预测。另一方面,神经网络在预测时不显式地使用训练样本;相反,来自训练集的信息在训练期间被编码成网络权重[19]。因此,确定46位摩根·托马斯等人的身份是具有挑战性的。训练对来自神经网络的预测最负责的样本。然而,对神经网络学习的表示进行相似性评估可以用来识别神经网络类似处理的分子;这是识别潜在类似物的一种有前途的方法[240]。或者,基于注意力的神经网络可以用来定义测试用例之间的定制相似性度量;这种方法已经在一次学习的框架中使用[86]。识别类似物具有重要意义,因为它使专家能够检查训练数据是否有任何潜在的错误;它是化学交叉阅读范例的关键组成部分。这被认为是化学毒理学中推断化学性质的一种方法;为了证明对未知化学品的性质的推断是合理的,必须提出具有已知性质的结构相似的化学品,并且必须描述这些分子的结构和性质之间的关系[241]。在我们看来,这是在药物设计中构建可解释的ML模型的有效框架;它们应该提供支持预测的训练实例,并描述如何使用输入特征来进行预测。

3.3适当的验证

对不确定性量化和可解释性的需求反映了模型使用的实际考虑;然而,在药物设计中对ML的研究相对忽视了它们,这在很大程度上是为了提高准确性[224]。这在一定程度上可能是由于与测量性能相比,评估这些特性的难度。

4.结论

人工智能在药物设计中的潜力正在慢慢接近现实;但仍有许多工作要做。ML模型被用于虚拟筛选以筛选化合物文库,合成规划以建议替代的和潜在的最佳合成路线,以及使用从头生成模型来设计有针对性的化合物文库的相当大的兴趣。然而,正如我们已经强调的那样,人工智能中目前的方法需要被调整和仔细监测,以便适当地应用于这样一个复杂的领域。首先,模型必须优先考虑可解释性和适用性,而不是原始的预测性能。此外,许多人工智能方法是在不相关的任务上进行评估的,或者使用不适当的指标进行评估;这使得为现实世界的问题选择合适的工具变得具有挑战性。例如,许多从头生成模型的评估标准是它们使受罚的logP最大化的能力(见副标题2.3)[208]–这是一项在药物设计中几乎没有实际意义的任务。药物化学家对模型的用户测试可能有助于评估模型的实用价值;这很少做,因为这是药物设计中人工智能研究人员不经常做的事情受过训练去做。然而,确保实际适用性的重要性怎么强调都不为过。

我们认为,人工智能在药物设计中的几个应用尚未充分发挥其潜力。一个这样的领域是通过生成模型对分子进行多参数优化–目前这是非常困难的,但改进它将使从头分子设计在先导优化中的进一步应用成为可能。另一种是将人工智能与蛋白质结构预测、对接模拟和自由能计算等基于结构的方法相结合,以提高精度和计算效率。这样的应用可以避免当前ML方法对足够的配基数据的限制性依赖,导致对新靶标的缺乏适用性。蛋白质结构预测的快速发展可能很快会极大地增加结构数据的可用性[242]。

在某些情况下,人工智能已被证明通过用更少的设计迭代[72,167]和更有效的合成路线[127]产生更有效的命中发现[72,167]来影响药物设计;然而,这是否也将在随后的临床环境中导致候选药物质量的提高还有待确定。候选药物的质量最有可能降低药物发现的总体成本;因为这可以减少临床试验流失率,这将比在命中发现、点击到领先和领先优化方面的效率提高加在一起更大地节省成本(见图1)[3]。因此,要从人工智能配体设计转向人工智能药物设计,还有更多的工作要做。

我们感谢Sosei Heptares、BBSRC和Wellcome Trust慷慨的博士资助,使本书的章节得以撰写。我们也感谢塞尔吉奥·巴卡拉多,以及我们在Sosei Heptares和剑桥大学的同事们,感谢他们的时间、支持和鼓励

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值