常见4种基因ID如何区别?如何转换?

本文介绍了常见的基因标识类型,如NCBIGenesymbol、NCBIEntrezID、EnsemblgeneID和UniProtID,并详细讲解了它们在NCBI和Ensembl数据库中的表示方式。重点展示了如何通过R包clusterProfiler进行基因ID转换,以及推荐使用g:Profiler工具进行更便捷的转换操作。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

常见的4种基因标识

人类基因在不同数据库中有不同的基因标识,常见的有以下5种类型:

  • NCBI Gene symbol

  • NCBI Entrez ID

  • Ensembl gene ID

  • UniProt ID

NCBI数据库

  • TP53 在NCBI的Gene数据库的记录为例:
左上角为TP53的Entrez ID
  • Gene symbol:基因通用名称,根据来源分为 offical symbol 和 loc symbol
  • official symbol 是由HGNC组织提供的基因通用名称;如果基因暂无official symbol,就在Entrez ID的前面添加LOC前缀作为其symbol, 比如LOC100653049
  • Entrez ID:为一串数字,是NCBI数据库给每一个基因指定的唯一ID,例如TP53的Entrez ID为7157
  • 一个 Entrez ID 可能对应多个 Gene symbol,如TP53还有其他名字如P53、LFS1等

Ensembl数据库

Ensembl ID 的格式是

【物种前缀】【类型前缀(基因或蛋白等)】【数字编号】【版本号后缀】

物种前缀:

前缀学名
ENSCELCaenorhabditis elegans (Caenorhabditis elegans)
ENSCAFCanis lupus familiaris (Dog)
ENSDARDanio rerio (Zebrafish)
FBDrosophila melanogaster (Fruitfly)
ENSHomo sapiens (Human)
ENSMUSMus musculus (Mouse)
ENSRNORattus norvegicus (Rat)
ENSXETXenopus tropicalis (Xenopus)

类型前缀:

前缀类型
Eexon
FMEnsembl protein family
Ggene
GTgene tree
Pprotein
Rregulatory feature
Ttranscript
  • 和 Entrez ID 类似,一个 Ensembl ID 也可能对应多个 Gene symbol。
  • Ensembl ID 的应用似乎最为广泛,在处理多数据集的表达矩阵时,可以全部转换为Ensembl ID从而统一不同数据集Gene symbol名称

UniProt数据库

  • TP53 在UniPot数据库中的记录为例:
Q12888即为TP53的UniProt ID
  • UniProt gene ID 的格式是:【大写字母】【数字编号】

如何转换基因ID?(推荐 g:Profiler 网页工具

clusterProfiler包转换

library(clusterProfiler)
library(org.Hs.eg.db)

keytypes(org.Hs.eg.db) #查看所有的可转换类型
#[1] "ACCNUM"       "ALIAS"        "ENSEMBL"      "ENSEMBLPROT" 
#[5] "ENSEMBLTRANS" "ENTREZID"     "ENZYME"       "EVIDENCE"    
#[9] "EVIDENCEALL"  "GENENAME"     "GENETYPE"     "GO"          
#[13] "GOALL"        "IPI"          "MAP"          "OMIM"        
#[17] "ONTOLOGY"     "ONTOLOGYALL"  "PATH"         "PFAM"        
#[21] "PMID"         "PROSITE"      "REFSEQ"       "SYMBOL"      
#[25] "UCSCKG"       "UNIPROT"  

ensembleID = c("ENSG00000176463","ENSG00000175445","ENSG00000077713","ENSG00000205517","ENSG00000145103","ENSG00000054983","ENSG00000162777","ENSG00000068985","ENSG00000180264","ENSG00000101144")

idTable <- bitr(geneID = ensembleID, 
                fromType = "ENSEMBL", 
                toType = c('ENTREZID','SYMBOL','GENETYPE'),
                OrgDb = org.Hs.eg.db) #指定物种基因注释包
idTable
  • 在转换后部分列的ID可能会出现重复 ,需要特别注意并进行去重

网页工具 g:Profiler 转换

  • 使用 clusterProfiler包 进行转换时经常会出现无法匹配的情况,似乎还是网页工具更好一些
  • g:Profiler 网页工具可以进行各种基因ID的转换,同时可以导出为tsv文件

  • Target namespace 常用选项列举如下:
选项描述
ENSG即 Ensemble ID

ENTREZGENE

NCBI的gene数据库中的基因名
ENTREXGENE_ACC

NCBI的gene数据库中的基因编号(Accession),即Entrez ID

UNIPROT_GNUniprot数据库中的基因名
UNIPROT_GN_ACCUniprot数据库中的基因序号
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

郁柳_Fudan

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值