常见的4种基因标识
人类基因在不同数据库中有不同的基因标识,常见的有以下5种类型:
-
NCBI Gene symbol
-
NCBI Entrez ID
-
Ensembl gene ID
-
UniProt ID
NCBI数据库
- 以 TP53 在NCBI的Gene数据库的记录为例:

- Gene symbol:基因通用名称,根据来源分为 offical symbol 和 loc symbol
- official symbol 是由HGNC组织提供的基因通用名称;如果基因暂无official symbol,就在Entrez ID的前面添加LOC前缀作为其symbol, 比如LOC100653049
- Entrez ID:为一串数字,是NCBI数据库给每一个基因指定的唯一ID,例如TP53的Entrez ID为7157
- 一个 Entrez ID 可能对应多个 Gene symbol,如TP53还有其他名字如P53、LFS1等
Ensembl数据库
Ensembl ID 的格式是:
【物种前缀】【类型前缀(基因或蛋白等)】【数字编号】【版本号后缀】
物种前缀:
前缀 | 学名 |
---|---|
ENSCEL | Caenorhabditis elegans (Caenorhabditis elegans) |
ENSCAF | Canis lupus familiaris (Dog) |
ENSDAR | Danio rerio (Zebrafish) |
FB | Drosophila melanogaster (Fruitfly) |
ENS | Homo sapiens (Human) |
ENSMUS | Mus musculus (Mouse) |
ENSRNO | Rattus norvegicus (Rat) |
ENSXET | Xenopus tropicalis (Xenopus) |
类型前缀:
前缀 | 类型 |
---|---|
E | exon |
FM | Ensembl protein family |
G | gene |
GT | gene tree |
P | protein |
R | regulatory feature |
T | transcript |
- 和 Entrez ID 类似,一个 Ensembl ID 也可能对应多个 Gene symbol。
- Ensembl ID 的应用似乎最为广泛,在处理多数据集的表达矩阵时,可以全部转换为Ensembl ID从而统一不同数据集Gene symbol名称
UniProt数据库
- 以 TP53 在UniPot数据库中的记录为例:

- UniProt gene ID 的格式是:【大写字母】【数字编号】
如何转换基因ID?(推荐 g:Profiler 网页工具)
clusterProfiler包转换
-
转换需要用的R包包括 clusterProfiler 和 org.Hs.eg.db
- 后者是human对应的基因注释包,其他物种的注释包可在以下链接中找到
- http://bioconductor.org/packages/release/BiocViews.html#___OrgDb
library(clusterProfiler)
library(org.Hs.eg.db)
keytypes(org.Hs.eg.db) #查看所有的可转换类型
#[1] "ACCNUM" "ALIAS" "ENSEMBL" "ENSEMBLPROT"
#[5] "ENSEMBLTRANS" "ENTREZID" "ENZYME" "EVIDENCE"
#[9] "EVIDENCEALL" "GENENAME" "GENETYPE" "GO"
#[13] "GOALL" "IPI" "MAP" "OMIM"
#[17] "ONTOLOGY" "ONTOLOGYALL" "PATH" "PFAM"
#[21] "PMID" "PROSITE" "REFSEQ" "SYMBOL"
#[25] "UCSCKG" "UNIPROT"
ensembleID = c("ENSG00000176463","ENSG00000175445","ENSG00000077713","ENSG00000205517","ENSG00000145103","ENSG00000054983","ENSG00000162777","ENSG00000068985","ENSG00000180264","ENSG00000101144")
idTable <- bitr(geneID = ensembleID,
fromType = "ENSEMBL",
toType = c('ENTREZID','SYMBOL','GENETYPE'),
OrgDb = org.Hs.eg.db) #指定物种基因注释包

- 在转换后部分列的ID可能会出现重复 ,需要特别注意并进行去重
网页工具 g:Profiler 转换
- 使用 clusterProfiler包 进行转换时经常会出现无法匹配的情况,似乎还是网页工具更好一些
- g:Profiler 网页工具可以进行各种基因ID的转换,同时可以导出为tsv文件
- Target namespace 常用选项列举如下:
选项 | 描述 |
ENSG | 即 Ensemble ID |
ENTREZGENE | NCBI的gene数据库中的基因名 |
ENTREXGENE_ACC | NCBI的gene数据库中的基因编号(Accession),即Entrez ID |
UNIPROT_GN | Uniprot数据库中的基因名 |
UNIPROT_GN_ACC | Uniprot数据库中的基因序号 |