摘要
ChEMBL 是个大型、开放获取、符合 FAIR(可查找、可访问、互操作、可重用)原则的生物活性分子数据库,收录的分子具有类药物特性。ChEMBL 35 版本包含 17,500 种已获批药物以及处于临床开发阶段的药物。自 ChEMBL 数据库建立以来,药物数据整理一直是其核心服务的重要组成部分。本文作为一份参考指南,阐述了 ChEMBL 药物数据采用特定整理方式的原则,帮助数据使用者更好地理解数据的性质。这些药物数据包含以下信息:名称、同义词与商品名、化学结构或生物序列、数据来源、适应症、作用机制、警示信息以及药物特性(如开发最高阶段、分子类型、前药状态和首次获批时间)。在生物活性资源背景下,药物数据的整合特性使其在药物研发、人工智能(AI)和机器学习领域具有广泛的应用价值。
意义
-
本文介绍了 ChEMBL 中高质量药物与临床候选药物数据的最新整理和整合流程。
-
本文为 ChEMBL 用户提供指导,助力其理解药物与临床候选药物数据的性质以及数据整理决策背后的依据。
-
随着计算药物研发、AI和机器学习领域对高质量数据的依赖日益增强,ChEMBL 生物活性资源中药物数据的整合特性成为一项关键资产。

引言

图1
(a)ChEMBL 中的药物与临床候选药物数据源自多种信息来源,经整理后收录。
(b)盐酸吡格列酮(CHEMBL1715)的典型药物数据示例。
表1 ChEMBL 如何区分药物、临床候选药物与含实验生物活性数据的研究化合物

数据来源
表2 ChEMBL 中的药物与临床候选药物数据来源

分子结构
表3 ChEMBL 中不显示化学结构的案例

分子层级

图2 分子层级表中字段的示例及说明
(a)该化合物(盐酸喷他佐辛,一种已获批的盐型药物形式)为给药成分,与母药化合物(喷他佐辛)不同。该母药化合物同时也是活性分子注册编号(active_molregno)对应的化合物(即非前药)。
(b)该化合物(盐酸伐昔洛韦,一种前药且为已获批的盐型药物形式)为给药成分,与母药化合物(伐昔洛韦)不同。母药化合物在人体内经代谢后生成药理活性成分(阿昔洛韦三磷酸)。
(c)该化合物(坎妥珠单抗 - 美坦新,一种前药且为处于 II 期临床试验阶段的抗体药物偶联物)既是给药成分,也是母药化合物。该化合物在人体内经代谢后生成药理活性成分(美坦新),而抗体成分(坎妥珠单抗)是实现药物向特定细胞靶向递送的关键。
临床试验流程

图3 临床试验流程
(a)从 ClinicalTrials.gov 提取相关临床试验数据,并存储到内部数据库暂存表中。
(b)针对每项临床试验,将干预措施与研究条件分别映射到化合物标识符(molregno,分子注册编号)和疾病标识符(EFO ID,实验因素本体论标识符)。
(c)将映射后的临床试验数据通过内部 “Drugbase” 数据库迁移至 ChEMBL 数据库,以供公开获取,同时还会同步至 Open Targets 平台。
适应症

图4 适应症与治疗靶点概述
(a)ChEMBL 35 中药物各开发最高阶段对应的适应症数量。该图展示了每个化合物家族中所有药物形式在各开发最高阶段类别下的不同医学主题词(MeSH)标识符数量。内侧标签为开发最高阶段类别,外侧标签为各 MeSH 标识符对应的 MeSH 标题,图例标注了不同适应症的数量。图中展示了每个开发最高阶段类别下排名前 20 的适应症。
(b)ChEMBL 35 中药物按作用类型划分的治疗靶点数量。该图展示了每个化合物家族中所有药物形式在各作用类型下的不同靶点标识符(tid)数量。内侧标签为作用机制类别,外侧标签为各靶点标识符对应的首选靶点名称,图例标注了不同靶点的数量。图中展示了每个作用类型类别下排名前 20 的靶点。
药物撤市与警示信息

图5 ChEMBL 35 的药物警示数据
(a)各毒性类别对应的撤市药物数量。标签标注了不同母药的数量。
(b)各毒性类别下,因存在严重或危及生命的不良反应而带有黑框警告的已获批药物数量。标签标注了不同母药的数量
开发最高阶段

图6 各开发最高阶段类别下分配的不同母药数量及其数据来源
分子类型

图7 药物特性及其他分子特征
(a)分子类型类别。
(b)已获批药物来那卡帕韦钠(CHEMBL4802249)的化合物报告卡中展示的分子特征示例。除分子类型、可获得性类型及手性(分别如图 a、c、d 所示)外,其他分子特征均以 “是”(彩色背景)或 “否”(无彩色背景)的图标形式呈现。
* 注:ChEMBL 中的所有化合物,无论是否为药物或临床候选药物,均会被赋予天然产物标记、化学探针标记,以及用于表示类药物分子是否符合 “五规则” 的标记。
(c)可获得性类型类别。
(d)手性类别。
前药与药物代谢数据

图8
(a)前药萘丁美酮(CHEMBL1070)及其药理活性成分(6 - 甲氧基 - 2 - 萘乙酸,CHEMBL1105)的示例。
(b)已获批药物奥美拉唑(CHEMBL1503)及其整理后的代谢途径示例,图中展示了其代谢产物(包括中间代谢产物)。
首次获批

图9
(a)ChEMBL 35 中药物的最早批准年份或美国采用名称(USAN)申请年份。该图展示了 1939 年至 2023 年期间不同母药的累积数量。
(b)分子类型随批准年份或美国采用名称(USAN)申请年份的分布。该图展示了每种母药的 “美国采用名称申请年份” 与 “首次批准年份” 中较早的年份所对应的分子类型。数据按选定时间段呈现(上图及左下饼图),同时还呈现了未分配美国采用名称申请年份和首次批准年份的药物数据(右下饼图中的 “未知” 年份类别)。
注:每个化合物家族中,母药与其他药物形式被赋予相同的分子类型。
参考
J Med Chem. 2025 Sep 19. doi: 10.1021/acs.jmedchem.5c00920. Drug and Clinical Candidate Drug Data in ChEMBL
注:AI辅助创作,如有错误欢迎指出。内容仅供参考,不构成任何建议。
2634

被折叠的 条评论
为什么被折叠?



