DisGeNET的初步认识

DisGeNET是一个包含基因-疾病关联数据的数据库,提供了GDA Score和VDA Score来衡量证据水平。GDA Score考虑来源数量、类型和文献支持,VDA Score同样考虑证据质量。此外,还有疾病特异性指数(DSI)和疾病多效性指数(DPI)来评估基因与疾病的相关性。DisGeNET数据还包括基因、变体、疾病的相关信息和证据级别。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在看疾病与基因组的关系时发现了该数据库,其中有一些分值的计算很有趣,特此记录下来供后续参考学习。

本文资料来自于DisGeNET - a database of gene-disease associations 的About页面。

DisGeNET Metrics DisGeNET指标

We have developed two scores to rank the gene-disease, and the variant-disease associations according to their level of evidence. These scores range from 0 to 1, and take into account the number and type of sources (level of curation, model organisms), and the number of publications supporting the association.

我们开发了两个分数(two scores)来对基因疾病(gene-disease)进行排序(rank),并根据(according to)其证据水平(level of evidence)对变异性疾病(variant-disease)关联(associations)进行排序。这些分数范围从0到1(range from 0 to 1),并考虑到(take into account)来源的数量和类型(治疗水平、模式生物)以及支持该关联的出版物数量。

GDA Score GDA得分

The DisGeNET Score (S) for GDAs is computed according to:

GDAs的DisGeNET分数根据以下公式计算:otherwise[ˈʌðəwaɪz]否则,不然,除此以外

GDA 得分

where:

  • N sources i is the number of CURATED sources supporting a   GDA Nsourcesi是支持GDA的CURATED来源的数量

    i ∈ CGI, CLINGEN, GENOMICS ENGLAND, CTD, PSYGENET, ORPHANET, UNIPROT i属于各种数据库

where:

  • j ∈ Rat, Mouse from RGD, MGD, and CTD   j属于大鼠,小鼠

where:

  • k ∈ HPO, CLINVAR, GWASCAT, GWASDB

where:

  • Npubs is the number of publications supporting a GDA in the sources LHGDN and BEFREE  N pubs是来源LHGDN和BEFREE中支持GDA的出版物数量

#整体算下来该得分最高为1,貌似是越高的各种数据库和文献支持度相对越高。

Distribution of the DisGeNET score for GDAs according to the number of sources reporting the association 根据报告关联的来源数量,GDA的DisGeNET得分分布(图略)

VDA Score VDA得分

The DisGeNET Score (S) for VDAs is computed according to:

VDA的DisGeNET分数根据以下公式计算:

where:

  • Nsourcesi is the number of CURATED sources supporting a VDA

    i ∈ UNIPROT,CLINVAR, GWASCAT, GWASDB

where:

  • Npubs is the number of publication supporting a VDA in the source in BeFree BeFree貌似是一个该数据库支持者开发的检索套路?

Distribution of the DisGeNET Score for VDAs according to the number of sources reporting the association 根据报告关联的来源数量,VDA的DisGeNET得分分布(图略)

Disease Specificity Index 疾病特异性指数

There are genes (or variants) that are associated wiht multiple diseases (e.g. TNF) while others are associated with a small set of diseases or even to a single disease. The Disease Specificity Index (DSI) is a measure of this property of the genes (and variants). It reflects if a gene (or variant) is associated to several or fewer diseases. It is computed according to:

有些基因(或变异)与多种疾病(如肿瘤坏死因子)相关,而另一些基因则与一小部分疾病(a small set of diseases)甚至单独的一种疾病(a single disease)相关。疾病特异性指数(Disease Specificity Index,DSI)是衡量(measure)基因(和变异)这种特性的一个指标。它反映(reflects)了一个基因(或变异)是否与几种或更少的疾病相关。根据(according to)以下公式计算:

where:

  • - N d is the number of diseases associated to the gene/variant   #N d是与基因/变体相关的疾病数量
    - N T is the total number of diseases in DisGeNET   #N T是DisGeNET中的疾病总数

The DSI ranges from 0.25 to 1. Example: TNF, associated to more than 1,500 diseases, has a DSI of 0.263, while HCN2 is associated to one disease, with a DSI of 1.

DSI范围从0.25到1。例如:与1500多种疾病相关的TNF的DSI为0.263,而HCN2与一种疾病相关,DSI为1。 说明DSI越小的基因或变异与越多的疾病相关?

If the DSI is empty, it implies that

### DisGeNET 数据库简介 DisGeNET 是一个综合性的数据库,专注于收集和整合人类基因与疾病的关联信息[^1]。该数据库通过多种来源获取数据,包括文献挖掘、手动注释以及与其他公共数据库的集成。这些来源使得 DisGeNET 成为了研究基因-疾病关联的重要资源。 #### 数据内容 DisGeNET 提供了丰富的基因-疾病关联数据,涵盖了遗传性和复杂性疾病的信息。其数据来源于多个渠道,例如 GWAS(全基因组关联研究)、OMIM(在线孟德尔遗传数据库)、UniProt 和 CTD(比较毒理学数据库)等。每条记录都包含了详细的元数据,如证据类型、置信度评分和支持的参考文献。 #### 使用特点 DisGeNET 的优势在于其广泛的覆盖范围和高质量的数据整理能力。它不仅提供了简单的基因-疾病映射关系,还支持更复杂的查询需求,比如基于特定疾病类型的筛选或按证据质量排序的结果展示。此外,DisGeNET 还提供了一个友好的用户界面和灵活的应用程序编程接口(API),方便研究人员访问和下载所需数据。 ```python import requests def fetch_disgenet_data(gene, disease): url = f"https://www.disgenet.org/api/gda/{gene}?disease={disease}&source=ALL&format=json" response = requests.get(url) if response.status_code == 200: data = response.json() return data else: return None # 示例调用 result = fetch_disgenet_data("BRCA1", "Breast Cancer") if result: print(result[:5]) # 打印前五个结果作为示例 else: print("No results found.") ``` 上述代码展示了如何利用 DisGeNET API 查询指定基因与疾病之间的关联信息。 --- ### 数据预处理与实体关系抽取 在构建基因疾病知识图谱的过程中,DisGeNET 的数据通常需要经过一系列预处理步骤,包括但不限于去重、标准化术语以及增强语义链接[^2]。这一步骤对于提高后续分析的质量至关重要。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值