网络药理学:详解TCMSP数据库(简介和功能介绍。新旧有何区别?数据体量多大,来源和局限性是什么?如何下载整个TCMSP数据库?与其他中药数据库相比?除了OB、DL还有其他推荐筛选成分的标准吗?)

1.前言(新旧TCMSP)

纵观网络药理学,尤其是中药网络药理学的论文脉络,我们可以发现高达90%的论文在收集某一中药的成分时用的都是单一的TCMSP数据库(本人评估的比例哈),TCMSP的引用次数也确实高居榜首。

然而该数据库还是有一定局限性的。譬如其收录的动物相关药材较少,“龟甲”等药材就没有相关数据。

所以本文将会从数据来源、引用情况、局限性等方面来详细介绍一下TCMSP数据库。

网址:

  • 旧tcmsp:https://old.tcmsp-e.com/tcmsp.php
  • 旧tcmsp实验室官网:https://old.tcmsp-e.com/index.php
  • tcmsp2.0:https://www.tcmsp-e.com/#/homehttps://www.91tcmsp.com/#/home

请区分!旧tcmsp的首页如下:
在这里插入图片描述

旧tcmsp实验室的首页如下:
在这里插入图片描述

新tcmsp的首页如下:
在这里插入图片描述

2.官网首页(简介和功能介绍)

旧TCMSP首页官方介绍如下,同样适用于新TCMSP:

TCMSP : Traditional Chinese Medicine Systems Pharmacology Database and Analysis Platform

TCMSP is a unique systems pharmacology platform of Chinese herbal medicines that captures the relationships between drugs, targets and diseases. The database includes chemicals, targets and drug-target networks, and associated drug-target-disease networks, as well as pharmacokinetic properties for natural compounds involving oral bioavailability, drug-likeness,intestinal epithelial permeability, blood-brain-barrier, aqueous solubility and etc. This breakthrough has sparked a new interest in the search of candidate drugs in various types of traditional Chinese herbs.

Please Cite: Jinlong Ru; Peng Li; Jinan Wang; Wei Zhou; Bohui Li; Chao Huang; Pidong Li; Zihu Guo; Weiyang Tao; Yinfeng Yang; Xue Xu; Yan Li; Yonghua Wang; Ling Yang. TCMSP: a database of systems pharmacology for drug discovery from herbal medicines. J Cheminformatics. 2014 Apr 16;6(1):13.

由以上信息,我们知道:

TCMSP ,全称是Traditional Chinese Medicine Systems Pharmacology ,中文名是中药系统药理学数据库与分析平台。

TCMSP捕捉药物、靶点和疾病之间的关系。该数据库包括化学物质、靶点和药物-靶点网络,以及相关的药物-靶点-疾病网络,还包括涉及口服生物利用度、药物相似性、肠道上皮通透性、血脑屏障、水溶性等天然化合物的药代动力学特性

请引用:金龙茹;李鹏;王金男;周伟;李博辉;黄超;李炜东;郭子虎;陶伟阳;杨茵峰;薛旭;李燕;王永华;杨玲.TCMSP:用于从草药中发现药物的系统药理学数据库。化学信息学杂志。2014 年 4 月 16 日;6(1):13.


总结如上,即TCMSP收录的都是中药的相关数据,其主要且常见的功能如下:

  1. 中药去查:

    • 中药有哪些成分(化合物)
    • 中药有哪些靶点
    • 中药有哪些关联的疾病
  2. 成分去查:

    • 成分(化合物)作用的靶点有哪些
    • 成分(化合物)关联的疾病有哪些
    • 成分(化合物)在哪些中药中出现
    • 成分(化合物)有哪些药代动力学数据(OB、DL、Caco-2、BBB等)
    • 成分(化合物)的CAS,其PubChem的链接,3D的结构下载(mol2)
  3. 名称或CAS去查

    • 通过名称查询中药、化合物(成分)、靶点、疾病的相关数据
    • 通过CAS查询化合物(成分)的相关数据

然而,它首页说自己还可以提供药物-靶点网络,以及相关的药物-靶点-疾病网络。
实际上现在已经不提供了。也不提供靶点的DrugBank跳转了。

3.官网论文(数据来源和体量)

在这里插入图片描述
如上,其中旧官网首页的“请引用”的有其发表的可跳转的论文链接,让我们点进去继续深挖该数据库。

其论文发表于2014年的《Journal of Cheminformatics》(化学信息学杂志)上,我摘录了数据相关部分

该2014年论文提到的数据体量和现下2024年10月24日截止我在旧TCMSP网站上观察到的数据体量是差不多的。
中药没有新增收录,化合物(成分)新增收录了五六百个。靶点新增收录了三十个左右。疾病新增收录了三十个左右。
而新版TCMSP与旧TCMSP数据没有区别。

3.1.数据的局限性(动物类、矿石类中药不全)

Description

It consists of all the 499 Chinese herbs registered in the Chinese pharmacopoeia with 29,384 ingredients, 3,311 targets and 837 associated diseases. Twelve important ADME-related properties like human oral bioavailability, half-life, drug-likeness, Caco-2 permeability, blood-brain barrier and Lipinski’s rule of five are provided for drug screening and evaluation.

描述

TCMSP包含了中国药典中注册的所有 499 种中草药,包括 29,384 种成分、3,311 个靶标和 837 种相关疾病。为药物筛选和评估提供了 12 个重要的 ADME 相关特性,如人类口服生物利用度、半衰期、药物相似性、Caco-2 通透性、血脑屏障和 Lipinski 五法则。

这说明什么,说明它收录的中药中的动物药就不怎么全了,如果全的话也会把数据列入论文里面的hhh

3.2.与其他中药相关数据库的比对(优劣势)

Background

Presently, several databases have provided useful tools in different aspects for TCM investigations. For example, TCM-ID [12] and TCM Database@Taiwan [13] provide the largest number of herbal ingredients with 3D structures and functional properties. Chem-TCM [14] and HIT [15] focus on herbal compounds and their corresponding targets. TCMID [16] comprises TCM formulae, herbs, ingredients and the targets and diseases. CVDHD [17] collects those natural products related to cardiovascular diseases and targets. Comparisons among these databases are listed on the TCMSP website.

……In total, TCMSP contains more than 84260 compound-target pairs (CT pairs) and 2387 target-disease pairs (TD pairs).

背景

目前,一些数据库为中医调查提供了不同方面的有用工具。例如,TCM-ID [12] 和 TCM Database@Taiwan [13] 提供了数量最多的具有 3D 结构和功能特性的草药成分。化学中药 [14] 和 HIT [15] 侧重于草药化合物及其相应的靶点。中药中药 [16] 包括中医方剂、草药、成分以及靶点和疾病。CVDHD [17] 收集与心血管疾病和靶点相关的天然产物。这些数据库之间的比较列在 TCMSP 网站上。
……
TCMSP 总共包含超过 84260 个化合物-靶点对 (CT 对) 和 2387 个靶点-疾病对 (TD 对)。

那么,让我们去往TCMSP网站上看一下,TCMSP官方列出的其与其他中药相关数据库的比较

在这里插入图片描述

机翻一下哈:

编号TCMSPTCMIDCHEM-TCM台湾中医药数据库TCM-IDHIT
网站http://sm.nwu.edu.cn/sp/tcmsp.phphttp://www.megabionet.org/tcmid/http://chemtcm.com/database.htmlhttp://tcm.cmu.edu.tw/http://bidd.nus.edu.sg/group/TCMsite/Default.aspxhttp://lifecenter.sgst.cn/hit/
内容及主要目的包括草药、成分(含结构文件)及其ADME特性,化合物-靶点-疾病网络构建。包括方剂、草药、成分及相关靶点和疾病,化合物-靶点-疾病网络构建。包含化学识别、植物学信息、预测的靶标活性和估计的分子活性。包括中医药草药的化学组成及其结构和功能文件。可作为中医药化合物的检索。用于确定有关方剂、草药、成分和治疗属性、毒性效应、临床适应症和应用以及相关文献的有用参考资料。用于链接草药成分至靶点。应用于草药成分靶点识别。
对公众免费下载++-+++
构建数据库的方法手工收集数据挖掘和数据库整合手工收集手工收集手工收集手工收集
草药数量499815935044311021300
成分(总数/唯一)29384/1314425210/未知12070/950020000/未知未知/12120未知/586
靶点33111752141--1301
疾病8373791----
网络分析是(获得的网络可进行进一步分析)是(获得的网络不能被下载)----
药理性质(ADME)OB, Caco-2, BBB, 半衰期-----
分子属性Lipinski (AlgoP, Hdon, Hacc, MW), FASA-, 类药物性, TPSA, RBN-ClogP, Hdon, Hacc, MW, PSA, RBNAlgoP, Hdon, Hacc, MW, PSA, RBNMW, pKa-
化学筛选是(基于ADME特征和分子属性)-----
外部数据库链接++--++
未来功能发展1)设计活性成分组合;2)作用模式分析;3)药代动力学;4)用户可以自由上传数据,平台将提供全面的分析结果。未描述未描述未描述未描述未描述

让我们再次精简以上表格,如下:

编号TCMSPTCMIDTCM-IDHIT
网站http://sm.nwu.edu.cn/sp/tcmsp.phphttp://www.megabionet.org/tcmid/http://bidd.nus.edu.sg/group/TCMsite/Default.aspxhttp://lifecenter.sgst.cn/hit/
内容及主要目的包括草药、成分(含结构文件)及其ADME特性,化合物-靶点-疾病网络构建包括方剂、草药、成分及相关靶点和疾病,化合物-靶点-疾病网络构建。用于确定有关方剂、草药、成分和治疗属性、毒性效应、临床适应症和应用以及相关文献的有用参考资料。用于链接草药成分至靶点。应用于草药成分靶点识别。
草药数量499815911021300
成分(总数/唯一)29384/1314425210/未知未知/12120未知/586
靶点331117521-1301
疾病8373791--
分子属性Lipinski (AlgoP, Hdon, Hacc, MW), FASA-, 类药物性, TPSA, RBN-MW, pKa-

可以看到,TCMSP的优势在于成分(化合物)较全,且有较多的药代动力学等属性。然而劣势就是,草药的数量和靶点数还是不全。

同时,本人在此补充一下TCMSP等中药相关数据库的引用比对图。
在这里插入图片描述
图:NP(网络药理学)常用中药数据库分布及累计中文期刊发文数,其中虚线代表数据库收录关联性;截止检索时间2022年4月17日

3.3.数据来源

Herbal ingredients

In order to gather all available information about ingredients of herbal medicines, we performed an extensive literature search for each herbal medicine. Structure files of molecules were downloaded from PubChem [18] Compound database, ChEMBL [19] and ChemSpider [20], or produced by ISIS Draw 2.5 (MDL Information Systems, Inc.) and further optimized by Sybyl 6.9 (Tripos, Inc.) with Sybyl force field and default parameters [2, 21]. Different format types of the chemical files were converted to SDF format by Open Babel [22]. The duplicates were removed according to InChIKey.

为了收集有关草药成分的所有可用信息,我们对每种草药进行了广泛的文献检索。分子的结构文件从 PubChem [18] 化合物数据库、ChEMBL [19] 和 ChemSpider [20] 下载,或由 ISIS Draw 2.5 (MDL Information Systems, Inc.) 生成,并由 Sybyl 6.9 (Tripos, Inc.) 使用 Sybyl 力场和默认参数 [2, 21] 进一步优化。Open Babel 将不同格式类型的化学文件转换为 SDF 格式 [22]。根据 InChIKey 删除了重复项。

意思就是,化合物的结构文件来自于PubChem和ChemBL和ChemSpider,或者结构式画图生成。

Drug targeting and disease association

Target information was obtained from DrugBank database [26]. Drug-Target mappings were obtained from two sources. Experimental validated drug-target pairs were retrieved from HIT database [15]. For those compounds without validated targets, the SysDT model constructed in our previous work [27] was used to predict the potential targets of a compound. SysDT shows impressive performance of prediction for drug-target interactions, with a concordance of 82.83%, a sensitivity of 81.33%, and a specificity of 93.62%, respectively. The disease information was obtained from TTD database [28] and PharmGKB (https://www.pharmgkb.org/).

靶标信息来自 DrugBank 数据库 [26]。药物-靶标图谱来自两个来源。从 HIT 数据库中检索实验验证的药物-靶点对 [15]。对于那些没有验证靶标的化合物,我们使用我们之前工作 [27] 中构建的 SysDT 模型来预测化合物的潜在靶标。SysDT 显示出令人印象深刻的药物-靶点相互作用预测性能,一致性为 82.83%,敏感性为 81.33%,特异性为 93.62%。疾病信息来自 TTD 数据库 [28] 和 PharmGKB (https://www.pharmgkb.org/)。

意思就是,靶点信息来自于DrugBank,查询某种药物相关的靶点有哪些是来自于HIT数据库或者模型预测。疾病信息来自于TTD和PharmGKB。

4.官网整体数据库下载

点击旧官网页面侧栏的Browse Database,我们可以看到TCMSP整体数据库如下,分为所有中药、所有成分、所有靶点、所有疾病四个模块。
在这里插入图片描述
因为TCMSP不提供直接的导出或下载,所以我们可以使用爬虫或者充值TCMSP会员,或者其他方法来获得整个数据库。

在这里本人引入谷歌插件Instant Data Scraper,它可以获取页面所含的excel或csv表格。是本人好友(CSDN账号:BlastOrange)推荐的一个方法,非常适合没有代码基础或者电脑没有编程环境的人。插件使用详情可以24年12月后私信打扰他。

除此之外,还可以直接访问:https://old.tcmsp-e.com/load_intro.php?id=31,看到如下界面,不过所有文件都是下载不了的……
在这里插入图片描述

如何来到上面的下载页面?在下文步骤1.6.官网更新日志的2014-01-25中可以看到允许跳转的蓝色文字“添加数据库下载选项”。

而新版TCMSP甚至不开放整体数据库呃呃呃。

5.官网推荐筛选标准

除了我们常见的OB≥30%,DL≥0.18,当一个药物的成分过多时,我们是否还有其他标准来继续缩小范围呢?

是有的,点击旧TCMSP首页侧栏的Parameter Information(参数详解),可以看到如下页面。新版TCMSP是同样的页面和标准。
在这里插入图片描述
可以见到其推荐的标准为:

  • OB: ≥20%; DL ≥0.1;
  • BBB: <-0.3 表示非穿透性(BBB-),从-0.3到+0.3,表示中等穿透性(BBB±),>0.3 表示强穿透性(BBB+)。
  • HL: 药物半衰期 ≤4 h:快速消除组,4-8 h为中消除组,≥8 h为慢消除组;
  • TPSA: 小于 60 平方埃的细胞膜可渗透性;
  • RBN: 仅满足 10 个或更少的可旋转键获得良好口服生物利用度的标准。

本页以下部分还有关于这些参数的定义,和其他参数相关的标准。不过这些标准都是根据2012年左右的论文文献提出来的,按个人情况是否采纳哈。
在这里插入图片描述

5.1.OB≥30%,DL≥0.18是谁提出的标准?

看到如上TCMSP的标准,你是否会感到好奇,明明在2012年左右大家的标准还是OB≥20%,DL≥0.1,为什么现在是OB≥30%,DL≥0.18了呢?

实际上,在2020年左右,TCMSP官网短暂地将标准改成如下:
在这里插入图片描述
那么到底OB和DL这个标准是谁提出来的呢?TCMSP是如何测算的呢?
本人查找资料后发现,应该是TCMSP官方团队自己提出的规则。
具体可见网址:https://www.mdpi.com/1422-0067/13/6/6964,即TCMSP主要贡献者王永华本人的论文:《A novel chemometric method for the prediction of human oral bioavailability》
和其手下研究生的论文:《药物口服生物利用度预测及在中药归经研究上的应用》

在论文中我们可以知道王永华先生及其团队认为:
P-糖蛋白 (P-gp) 和细胞色素 P450 是限制药物口服生物利用度 (OB) 的主要防线。
所以他们根据如上对数据集进行了切分和权重加强,其OB是由基于多元线性回归MLR,偏最小二乘法回归PLS,支持向量机SVR方法整合的OBioavail 1.1模型进行预测的。

那么这个模型的效果到底怎么样呢?

在论文的最后提到,SVR的性能略优于 MLR 和 PLS,其决定系数 (R2) 为 0.80,标准估计误差 (SEE) 为 0.31。对于 MLR 和 PLS,它们相对较弱,对于 SEE 为 0.40 和 0.31 的训练集,它们的预测能力分别为 0.60 和 0.64。也就是说,预测值与实验值之间的平均偏差约为 0.31左右。

这是什么意思?
意思就是模型的预测结果的精确度在70%左右。当时其他模型的预测结果精确度在60%左右。虽然确实是相对提高了不少,但并不是说绝对精准的。

再结合模型是2015年5月左右完成的,论文是2016年发表的,也是距离当下有8年的时间了,数据会较为不准也是很正常的(目前网药中关于TCMSP数据库的数据准确性的质疑越来越大)。

另外靶点预测也是利用前期开发的工具SysDT进行预测的。在此不做过多展开。

6.官网更新日志

在旧版TCMSP网页上我们可以看到其更新日志,其最后的更新日志时间点是2014年。且从TCMSP1.0于2012-09-30年上线后,就几乎没有再新增数据了。
在这里插入图片描述

7.官网友链

在旧版TCMSP的每个页面下面都可以看到TCMSP的版权说明和同实验室的友链CancerHSPPreDC
在这里插入图片描述
非常想吐槽的一件事就是产品不知道为什么要在这里设计一个统计访问量的功能hhh。插了一个统计访问量的php链接,然后再包裹成图片,要不说php是世界上最伟大的语言呢(乐

8.实验室官网

8.1.TCMSP技术论文(ADME计算和网络靶标识别等理论)

含有如下板块:
在这里插入图片描述
在这里插入图片描述
具体见实验室的官网:https://old.tcmsp-e.com/articles.php?id=1#%E4%B8%89%E3%80%81TCMSP%E6%8A%80%E6%9C%AF%E6%A8%A1%E5%9D%97

或者可以从实验室官网侧栏的TCMSP Analysis Platform或者顶栏的工具点进去。
在这里插入图片描述

8.2.发表文章、引用查询、专利展示

都可以分别见于实验室官网顶栏。
也可以点进去顶栏的“平台应用”看到统计的数据,相关原文如下:

目前使用TCMSP获得发明专利授权23个、实用专利授权9个、申请发明专利5个、发布标准9个,与TCMSP有关授权商标23个,获批软件著作权1件。

TCMSP自发表以来,中文与英文研究论文的引用已经达到3万篇以上(CNKI、百度学术、Google学术、Pubmed,2023-11-01)。

CNKI:数据库显示,引用TCMSP的研究成果数量为3.82万篇
百度学术:数据库显示,引用TCMSP的研究成果数量为3.31万篇
Google学术:数据库显示,引用TCMSP的研究成果数量为1.21万篇
PubMed:数据库显示,引用TCMSP的研究成果数量为1249篇

9.新版TCMSP体验(狠狠批判)

新版TCMSP,本人感觉……emmm……先来看下首页吧总之,如下:
在这里插入图片描述

首先UI优化了,这个无需多言。

其次产品设计方面变得更加商(传)业(销)了,譬如侧栏多了“培训与咨询服务”,右下角多了客服咨询,每个(都不能用的)小功能都有专门的“联系我们”还有需求表单。
可以,这很华子。
在这里插入图片描述

当然,也是多了一些小功能的,首先它将处于旧版页面的友链CancerHSP直接搬上来和TCMSP并列了(另一个PreDC咱不要了吗/(ㄒoㄒ)/~~

其次就是,由于华为的盘古大模型的技术支持,相比于旧版,新版支持了网络展示。
在这里插入图片描述
虽然只能保存png等图片格式,感觉也是一个半废的功能。

最后狠狠批判其开通会员后没有任何会员服务,以消费记录为例。而且相比于旧版TCMSP,没有新增任何数据集就算了,还隐藏掉了所有数据库。。。
在这里插入图片描述

10.总结

还是推荐使用旧版TCMSP数据库的,对其总结如下:

  • 关于中药:其重点主要是收录中草药,而动物药较少。且中草药主要涵盖的是中国药典的500种,较TCMID等数据库还是较少。
  • 关于化合物(成分):化合物收录的较多,且含有OB、DL等药代动力学属性,属于其独特的优势。化合物的结构文件来自于PubChem和ChemBL和ChemSpider,或者结构式画图生成。
  • 关于靶点:靶点信息来自于DrugBank(但不提供链接跳转了)。查询某种药物相关的靶点有哪些是来自于HIT数据库或者模型预测。
  • 关于疾病:疾病信息来自于TTD和PharmGKB。
  • 关于网络:不提供药物-靶点网络和药物-靶点-疾病网络下载了。
  • 关于网站整体用途:1)新中药组合开发;2)活性成分鉴定与筛选;3)系统药理学(最主要的用途)。

新版TCMSP改动如下:

  • 增加药物-靶点等网络展示和图片格式下载功能。
  • UI更加美观。
  • 除此之外一无是处,还隐藏了整体数据集。

所以如果你的药物在TCMSP上查不到成分,或者查到的成分都是槲皮素等假阳性成分,这也是很正常的。推荐使用TCM-ID、TCMID、ECTM、HIT、Herb等数据库进一步查找。

评论 12
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

shanshandeisu

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值