如何下载关于人类或者其它物种的全部转录本名称（NM_）

最新推荐文章于 2024-05-06 09:18:28 发布

愿航

最新推荐文章于 2024-05-06 09:18:28 发布

阅读量6.8k

点赞数 3

文章标签：生物信息学

本文链接：https://blog.csdn.net/wish_to_top/article/details/115487976

版权

记录

如果我在已经有了基因名的情况下，可以有几种方法

1.通过NCBI的GENE数据库

1）首先进入到https://www.ncbi.nlm.nih.gov/gds/中，然后选择你要的基因
在这里插入图片描述

2）例TP53,需要观察物种在这里插入图片描述
3）选择并点击，进入，ctrf + F,输入 NCBI Reference Sequences (RefSeq) ，查询这个基因所具有的转录本，结果如下
总结：这种方法适用于基因个数比较少的情况，当基因个数比较多时，则需要利用R包biomart进行转换，或者数据库资源

2. 数据库资源

在NCBI的数据库中下载，你所需要的部分。你可以在这个网址中https://ftp.ncbi.nlm.nih.gov/gene/DATA/，下载这个文件。在这里插入图片描述
解压后打开如下，
tax——id,为物种的ID，例如人类为9606，然后后面跟着的就算基因ID了，第四个为我们所需要的NM编号（RefSeq 的转录本号）.当然了，如果你好需要基因ID所对应的基因symbol的，这边也可以下载。https://ftp.ncbi.nlm.nih.gov/gene/DATA/GENE_INFO/Mammalia/
在这里插入图片描述

下了小鼠的，打开如下在这里插入图片描述
第二列和第三列为基因ID和基因名。
有了这两张表，你基本上就能得到所有NM开头的所有基因转换关系了。你也可以合并这两份张表，通过R的merge或者excel来做vlookup都可以。

3.R包

R包可以参考这篇推文吧https://blog.csdn.net/weixin_40739969/article/details/89354167，既然都是基因转换，应该差不了多少。或者可以用biomart包

4.网站

DAVID吧。。。。

5.后续想到再说

6.在5月份处理小鼠的转录数据时碰到的问题

1.1 biomaRt

对于biomaRt这个包的转化函数为getbm，然后在这里插入图片描述
看样子是要将dplyr降级了，但是实在是不想这么搞，因为不同的包可能到时候又要升级回去，所以算了算了。

1.2 clusterProfiler

gene.df <- bitr(gene, fromType = "ENSEMBL", #fromType是指你的数据ID类型是属于哪一类的
                toType =  "SYMBOL", #toType是指你要转换成哪种ID类型，可以写多种，也可以只写一种
                OrgDb = org.Mmu.eg.db)#Orgdb是指对应的注释包是哪个

这个跟我一直报在这里插入图片描述
找不到数据类型，oh,我的上帝呀。不想搞了，花了太多时间，从装包到比对，有解决方法的请指导下，谢谢。

1.3 AnnotationDbi

气急败坏的我又找了一篇，这次终于可以了

gene = data$Geneid# %>% as.data.frame()
df = data.frame(gene)
#BiocManager::install("AnnotationDbi")
library("AnnotationDbi")
df$symbol <- mapIds(org.Mm.eg.db,
                    keys=gene,
                    column="SYMBOL",
                    keytype="ENSEMBL",
                    multiVals="first")
df = na.omit(df) # 删除掉没有匹配掉的