详解人类基因在不同数据库中的ID

欢迎关注”生信修炼手册”!

对于人类的基因而言,不同数据库提供了不同的命名方式。对于初学者而言,非常容易搞混淆。今天我们就来理一下,常见的基因命名方式。

首先看一下NCBI中基因的信息如何命名,NCBI的Gene数据库记录了不同物种的基因信息,在Gene数据库中,给每一个基因提供了一个唯一的ID, 这个ID叫做Entrez ID,Entrez是NCBI的检索系统的名字。

TP53为例, 链接如下

https://www.ncbi.nlm.nih.gov/gene/7157

链接中的7157就是这个基因的Entrez ID。在该链接中,我们可以看到以下信息

gene symbol指的是基因的名字,对于每个基因,都有对应的symbol, 根据来源可以分为以下两类

  1. offical symbol

  2. loc symbol

official symbol指的是由HGNC这个组织提供的基因的名称,HGNC是一个基因命名委员会,负责对人类基因组上的所有基因提供一个唯一的,标准的,可以广泛传播的symbol。HGNC命名的基因收录在以下数据库中

http://www.genenames.org/

除了symbol外,还提供了HGNC id, TP53基因对应的id为HGNC:11998。

如果这个基因没有HGNC提供的Symbol, 就在Entrez ID的前面添加LOC前缀作为其symbol, 比如LOC100653049

在NCBI中,所有的基因都有Entrez IDGene Symbol, 其中只有部分基因拥有HGNC Symbol

Ensembl 数据库也收录了基因的信息,用Ensembl ID表示每个基因,以ENSG开头,上述例子中的TP53对应的Ensemb的ID为ENSG0000014150。需要注意的是,Ensembl和NCBI收录的基因总数不相同。

UCSC的基因ID以uc开头,比如uc003tqk.4, 称之为knownGene, 完整的基因列表可以从以下链接下载

http://hgdownload.soe.ucsc.edu/goldenPath/hg38/database/knownGene.txt.gz

KEGG的Gene 数据库也拥有自己的gene ID, 以三个字母的物种缩写和id构成,比如tp53对应的kegg gene id 为hsa:7157。链接如下

https://www.kegg.jp/dbget-bin/www_bget?hsa:7157

对于大部分基因而言,会有以下5种类型的ID

  1. NCBI entrez ID

  2. NCBI gene symbol

  3. Ensembl gene ID

  4. UCSC gene ID

  5. KEGG gene ID

对于特定类型的基因,还会有自己的数据库

1. miRNA

miRNA目前公认的是miRBase 数据库的ID,MIR21对应的miRBase的ID 如下

2. lncRNA

lncRNA目前没有一个统一的命名,lncRNAdb, LNCipedia等数据库都有自己的ID。

其他类型的基因也会有自己的数据库,这里就不一一展开了。

·end·

—如果喜欢,快分享给你的朋友们吧—

扫描关注微信号,更多精彩内容等着你!

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值