一、筛选疾病靶点
GeneCards
- 下载数据得到
GeneCards-SearchResult.csv
- 通过
Relevance score≥1.0
得到GeneCards.csv
- 步骤2只保留
Gene Symbol
,即基因名这一列得到GeneCards_gene_names.csv
OMIM
- 下载数据得到
OMIM-Gene-Map-Retrieval.xlsx
- 只保留
Gene/Locus
,即基因名这一列得到OMIM.xlsx
- 处理
OMIM.xlsx
,得到单个基因名只占一行、去重、去除空格的OMIM_gene_names.xlsx
TDD
- 手动粘贴
Target Name
小括号里面的基因名称,加上列名GeneName
,得到TDD_gene_names.csv
汇总
- 取三个数据库的交集或并集(一般取交集),去重,得到
disease.xlsx
,数据量为几千个为合适的。
二、筛选药物成分
TCMSP
- 用
OB≥30%, DL≥0.18
标准筛选后手动粘贴数据得到TCMSP.xlsx
(数据量太少就用OB≥20%, DL≥0.18
)
SwissADME二次筛选
- 用
高GI和两条yes于Druglikeness
标准进行二次筛选,得到SwissADME.xlsx
,最终数据量为几条到十几条。
三、查询成分相关信息
TCMSP根据成分名称(Molecule Name)获取其mol2格式文件
PubChem根据成分名称获取其2D结构的SDF格式文件
四、预测成分靶点
PharmMapper
- 用
SDF
(2D
或3D
都可)/MOL2
格式文件上传任务(一般2D
的SDF
最常用) - 下载任务数据集,命名为
成分名称_pharmMapper.csv
- 对步骤2得到的文件进行处理,列只要
Norm Fit
和Uniplot
,得到成分名称_pharmMapper_uniplot.csv
- 对步骤3得到的文件进行处理,只要
Norm Fit≥0.9
的数据行,得到成分名称_pharmMapper_filtered.csv
- 对步骤4得到得文件进行处理,列只要
Uniplot
,去重,得到pharmMapper_filtered.csv
,数据量在几十到几百正常。
SwissTargetPrediction
- 下载数据集,分别命名为
成分名称_SwissTargetPrediction.csv
- 选取
Probability
的Top15
,分别命名为成分名称_SwissTargettPrediction_top15.csv
如果
Probability
为0,那么即使在top15也不要选,数据量小时可以选择Top 20/Top 25
,或者干脆≥0.7
或≥0.1
或>0
的都可。数据量过多时,probability
大于10也可以。大于中位数也行。
- 对步骤2得到的文件进行处理,列只要
Common
(靶点名)、Uniprot ID
、Probability
,分别命名为成分名称_SwissTargetPrediction_filtered.csv
- 对步骤3得到的文件进行处理,把所有成分汇总,只保留列
Common name
和Uniprot ID
,并去重,得到SwissTargetPrediction_top15_filtered.csv
,数据量在几十到几百正常。
汇总
- 取两个数据库的交集或并集(一般取交集,数据量过小就取并集),只保留
Uniplot
列,去重,得到drug.xlsx
,数据量为几百个为合适的。
五、Uniprot转化为基因名
- 对成分靶点的数据文件转换为基因名,将
From
列改为Uniplot
,将To
列改为GeneName
,命名为drug_genes.xlsx
六、成分靶点和疾病靶点取交集,做韦恩图
- 用取交集在线网站取成分靶点和疾病靶点的交集,命名为
drug_and_disease.xlsx
- 用画韦恩图在线网站画韦恩图,命名为
venn.png