R包：disgenet2r｜DisGeNET的懒癌福利，一行代码多种可视化

最新推荐文章于 2025-03-23 19:21:50 发布

Bioinfo Guy

最新推荐文章于 2025-03-23 19:21:50 发布

阅读量3.1k

点赞数 7

分类专栏： R生信文章标签： r语言数据库开发语言

本文为博主原创文章，未经博主允许不得转载。

本文链接：https://blog.csdn.net/weixin_48093827/article/details/135858623

版权

R生信专栏收录该内容

26 篇文章

订阅专栏

文章介绍了DisGeNET数据库及其在生物信息学中的应用，重点讲解了R语言包disgenet2r的安装、使用方法，包括单一疾病相关基因搜索、多疾病联合分析和疾病富集功能。该包简化了对DisGeNET数据的处理，但可视化选项有限。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.前言

DisGeNET是一个综合性的数据库，它集合了关于基因和人类疾病之间关联的信息。这个数据库涵盖了各种疾病和条件，提供了大量有关基因、变异和疾病之间联系的数据。DisGeNET数据集通常用于生物信息学和基因组学研究，特别是在疾病遗传学和药物发现领域。

disgenet2r包是一个用于R语言的工具，专为访问和分析DisGeNET数据库中的数据而设计。DisGeNET是一个包含了人类基因和疾病关联数据的综合性数据库。通过disgenet2r包，研究者可以在R环境中直接查询、检索和分析与基因和疾病相关的信息。

当前版本的 DisGeNET （v7.0）包含 21671 个基因与 30170 个疾病、病症、性状和临床或异常人类表型之间的 1134942 个基因-疾病关联（GDA），以及 194515 个变异与 14155 个疾病、性状和表型之间的 369554 个变异-疾病关联（VDA）。

2.获取R包

# https://github.com/jinfar/disgenet2r
library(devtools)
install_bitbucket("ibi_group/disgenet2r")
library(disgenet2r)

有一位粉丝提到他那边怎么都下载不了，挂不挂梯都试了，网络环境问题。而且该包也没有提供本地包下载，小编提议暂时直接在github上下载压缩包，然后把主函数全部scoure一遍（无奈之策）：

## 报错：
Downloading bitbucket repo ibi_group/disgenet2r@HEAD Error: Failed to install 'disgenet2r' from Bitbucket: error reading from connection

## 无奈之策：
list.files()
# [1] "DESCRIPTION"      "disgenet2r.Rproj" "inst"             "man"             
# [5] "NAMESPACE"        "R"                "README.md"        "vignettes"       
for (i in list.files("./R")) {
   source(paste0("./R/",i))
}

3.使用方法

加载完R包后先调用API，记得提前在DisGeNET官网中注册一个帐号，随便一个国内邮箱都可以，然后完成设置：

## 调用API
disgenet_api_key <- get_disgenet_api_key(
  email = "xxxx@126.com", 
  password = "******" )
Sys.setenv(DISGENET_API_KEY= disgenet_api_key)

下面列举几个常用的代码，可视化的形式就network，Piechart，DiseaseClass，Venn，Heatmap，ProteinClass，Barplot，Lollipop。与不同用途排列组合起来以及例图太多太多了，使用前可以参考官网文档，都有一一列举。

3.1 检索单一疾病相关基因

可以修改疾病代号，替换参数中的disease和vocabulary即可，这里以精神分裂症（D012559）为例

disease	vocabulary
D012559	——
181500	OMIM
295	ICD9CM
C3362	NCI
HP:0100753	HPO

data4 <- disease2gene( disease  = "181500", vocabulary = "OMIM",
                          database = "CURATED",
                          score    = c(0.4,1 ) )
data4
# Object of class 'DataGeNET.DGN'
# . Search:      single 
# . Type:        disease-gene 
# . Database:     CURATED 
# . Score:        0.4-1 
# . Term:        181500 
# . Results:  227

3.2 多疾病联合

## 疾病列表
diseasesOfInterest <- c("C0036341", "C0002395", "C0030567","C0005586")

## 检索
data5 <- disease2gene(
  disease = diseasesOfInterest,
  database = "CURATED",
  score =c(0.5,1),
  verbose  = TRUE )
  
## 可视化
plot( data5,
      class = "Network",
      prop = 1,
      verbose = T)
# The network contains 154 nodes and 170 edges.

3.3 疾病富集

list_of_genes <- disease2gene(disease = "C0004352", database = "GENOMICS_ENGLAND")
list_of_genes <- list_of_genes@qresult$gene_symbol
res_enrich <-disease_enrichment( entities =list_of_genes, vocabulary = "HGNC",
                                 database = "CURATED" )
table1 <- res_enrich@qresult[1:10, c("Description", "FDR", "Ratio",  "BgRatio")]
head(table1)
# Description          FDR Ratio  BgRatio
# 5              Autistic Disorder 3.188823e-30 20/20 261/9703
# 143      Intellectual Disability 1.677768e-11 13/20 447/9703
# 91    Global developmental delay 2.796271e-07  7/20 133/9703
# 126 Neurodevelopmental Disorders 9.257204e-07  6/20  93/9703
# 124    Autism Spectrum Disorders 2.067698e-05  5/20  85/9703
# 64             Abnormal behavior 1.107414e-04  3/20  16/9703