网络药理学:3、零基础复现一篇生信文章:筛选疾病靶点、GeneCards、OMIM、TTD使用教程

一、前言

药物和疾病英文名

  • 大黄英文名:Dahuang
  • 食管癌英文名:esophageal cancer

网站地址

  • TCMSP网站地址:https://old.tcmsp-e.com/tcmsp.php
  • GeneCards网站首页:https://www.genecards.org/
  • OMIM网站首页:https://www.omim.org/(没什么用,建议直接去到OMIM geneMap页面)
  • OMIM geneMap页面:https://www.omim.org/search/advanced/geneMap
  • SwissADME网站:http://www.swissadme.ch/index.php
  • SwissTarget网站:http://swisstargetprediction.ch/
  • PharmMapper网站:https://lilab-ecust.cn/pharmmapper/index.html
  • Pubchem网站:https://pubchem.ncbi.nlm.nih.gov/

本文复现的论文步骤(重要)

本文复现的步骤是筛选疾病靶点

二、GeneCards数据库筛选疾病作用靶点

网站首页和搜索

进入GeneCards网站首页后,搜索食管癌英文esophageal cancer,随后点击搜索。
在这里插入图片描述

搜索结果下载

点击Export后点击Export to Excel(这个的下载会有点慢,可以先做下一步DisGeNET)
在这里插入图片描述

搜索结果初筛

Genecards下载的文件名也默认都是GeneCards-SearchResults.csv,我们打开下载的文件,如下:
在这里插入图片描述

然后我们需要选中表头,然后点击“筛选”下的“筛选”。
在这里插入图片描述
之后就可以看到表头的每一个都出现了筛选图标。
在这里插入图片描述
随后我们需要将表格列宽调整到合适的列宽。选中表头后,按住Alt键,然后依次按下H(表示“主页”选项卡)、O(表示“格式”菜单)、I(表示“自动调整列宽”)。

根据原文步骤相关性评分(Relevance score) ≥ 1.0,我们点击Relevance score的筛选图标后选择“数字筛选”,而后出现如下面板,输入相关信息点击确认后可以看到表格的最下方显示我们从7548条中筛选出了7227条,之后将这些数据复制到新的excel文件中。
在这里插入图片描述
在这里插入图片描述

三、OMIM数据库筛选疾病作用靶点

网站搜索

直接来到OMIM geneMap页面,搜索食管癌英文esophageal cancer,随后点击搜索。
在这里插入图片描述

或者你可以通过首页来到gene Map页面
在这里插入图片描述

下载搜索结果

如下下载搜索结果
在这里插入图片描述

搜索结果处理

在OMIM下载的数据的文件名称都是OMIM-Entry-Retrieval.xlsx
我们点开来看,如下,我们只需要关注或者说,提取Gene/Locus这一列即可。

excel相关快捷键:按住键盘的SHIFT + CTRL不放开,然后按下下箭头即可选中当前列的所有数据,再按ctrl + C复制。

最终数据的格式是:将逗号和前后空格都删除,并去重,一个基因名就占一行。

在这里插入图片描述
你可以选择如下两种方法之一:

excel处理

在这里插入图片描述
选中所有数据后,选择【分列】。然后选中【分隔符号】【逗号+空格】【常规】【完成】,可以看到数据变成类似如下格式:
在这里插入图片描述

分别选中每列数据,选择【删除重复值】,在这里我们是为了删除空格。
在这里插入图片描述
当一列数据的右边存在数据时,可能冒出弹窗如下:
在这里插入图片描述
选择【以当前选定区域排序】即可。

然后将所有列全部移到一列下,则得到我们想要的格式的表格文件了。

注意最后还是要遍历一遍整个表格,有什么小问题手动操作一下。

代码处理

我写了一个python脚本,代码如下:
ps:这只是一个片段代码,如果直接跑是跑不出来结果的(

def get_gene_from_OMIM(OMIM_file_name):
    # 读取Excel文件
    df = pd.read_excel(OMIM_file_name, skiprows=4)  # 跳过前4行非数据行

    # 提取"Gene/Locus"列
    gene_locus_column = df['Gene/Locus'].dropna()

    # 创建一个空列表来存储处理后的基因名
    cleaned_genes = []

    # 遍历"Gene/Locus"列
    for item in gene_locus_column:
        # 检查是否为字符串类型
        if isinstance(item, str):
            # 去除双引号并去除两端空格
            item = item.replace('"', '').strip()
            # 分割基因名并去除每个基因名两端的空格
            genes = [gene.strip() for gene in item.split(',')]
            # 添加到列表中
            cleaned_genes.extend(genes)
    gene_df = pd.DataFrame(cleaned_genes, columns=['Gene/Locus'])
    print("omim_df 's row is: ", len(gene_df))
    return gene_df

四、TTD数据库筛选疾病作用靶点

网站首页如下:
在这里插入图片描述
Search for Targets中输入疾病名称后点击搜索。
这个数据库数据量较少,搜出来一般只有几条到几十条,如下:
在这里插入图片描述
而且需要自己复制靶点基因名,即方框中的内容。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

鸡鸭扣

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值