常用数据库ID

最近在学GEO数据库和RNA-seq,一直都有关于id转换的步骤,一直搞不清楚,今天参考常用数据库的基因ID,归纳整理一下。

Ensembl stable ID

Ensembl stable ID 的结构是根据不同物种设置的前缀,加上数据所指的类型,如基因蛋白质,再加上一系列的数字。有的时候可以有不同的版本,则在 Ensembl ID 后面加上小数点和版本号。
在这里插入图片描述
在这里插入图片描述

UniProt

UniProt 中录入的数据都被分配了一个唯一的 entry name,叫做UniProtKB/Swiss-Prot entry name。它是最多有 11 位包含大写字母的字符串,一般有着 “X_Y” 的形式,其中 “X”是最多五个便于记忆的蛋白质编号,“_" 是下划线,“Y” 是最多五个便于记忆的物种编号。

Gene Symbol (HUGO Symbol)

Gene Symbol是用来表示基因的编码,由大写字母构成,或由大写字母和数字构成,首字母均应该是字母,有点像是是基因的标准缩写。HUGO Gene Symbol:HUGO Gene Symbol(也叫做HGNC Symbol,即基因符号)是HGNC组织对基因进行命名描述的一个缩写标识符,这些基因符号都是唯一的。

**RefSeq Accession Number **

RefSeq 有一套特殊的 Accesion Number. 形式是:[A-Z]{2}[_][0-9]{6:},两个大写字母, 一个下划线,6 个或更多的数字。RefSeq — NCBI数据库的参考序列。校正的,非冗余集合,包括基因组DNA contigs,已知基因的mRNAs和蛋白。Accession numbers用NT_xxxxxx, NM_xxxxxx, NP_xxxxxx, 和NC_xxxxxx的形式来表示。

Entrez ID

Entrez 是 NCBI 使用的能够对众多数据库进行联合搜索的搜索引擎,其对不同的 Gene 进行了编号,每个 gene 的编号就是 entrez gene id。由于 entrez id 相对稳定,所以也被众多其他数据库,如 KEGG 等采用。Entrez Gene ID 就是一系列数字,也比较容易辨识。R 或网站都有众多的工具可以帮助从不同的 ID 转换为 entrez id或者反向转换。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值