如何下载关于人类或者其它物种的全部转录本名称(NM_)

记录

如果我在已经有了基因名的情况下,可以有几种方法

1.通过NCBI的GENE数据库

1)首先进入到https://www.ncbi.nlm.nih.gov/gds/中,然后选择你要的基因
在这里插入图片描述

2)例TP53,需要观察物种在这里插入图片描述
3)选择并点击,进入,ctrf + F,输入 NCBI Reference Sequences (RefSeq) ,查询这个基因所具有的转录本 ,结果如下在这里插入图片描述
总结:这种方法适用于基因个数比较少的情况,当基因个数比较多时,则需要利用R包biomart进行转换,或者数据库资源

2. 数据库资源

在NCBI的数据库中下载,你所需要的部分。你可以在这个网址中https://ftp.ncbi.nlm.nih.gov/gene/DATA/,下载这个文件。在这里插入图片描述
解压后打开如下,在这里插入图片描述
tax——id,为物种的ID,例如人类为9606,然后后面跟着的就算基因ID了,第四个为我们所需要的NM编号(RefSeq 的转录本号).当然了,如果你好需要基因ID所对应的基因symbol的,这边也可以下载。https://ftp.ncbi.nlm.nih.gov/gene/DATA/GENE_INFO/Mammalia/
在这里插入图片描述

下了小鼠的,打开如下在这里插入图片描述
第二列和第三列为基因ID和基因名。
有了这两张表,你基本上就能得到所有NM开头的所有基因转换关系了。你也可以合并这两份张表,通过R的merge或者excel来做vlookup都可以。

3.R包

R包可以参考这篇推文吧https://blog.csdn.net/weixin_40739969/article/details/89354167,既然都是基因转换,应该差不了多少。或者可以用biomart包

4.网站

DAVID吧。。。。

5.后续想到再说

6.在5月份处理小鼠的转录数据时碰到的问题

1.1 biomaRt

对于biomaRt这个包的转化函数为getbm,然后在这里插入图片描述在这里插入图片描述
看样子是要将dplyr降级了,但是实在是不想这么搞,因为不同的包可能到时候又要升级回去,所以算了算了。

1.2 clusterProfiler

gene.df <- bitr(gene, fromType = "ENSEMBL", #fromType是指你的数据ID类型是属于哪一类的
                toType =  "SYMBOL", #toType是指你要转换成哪种ID类型,可以写多种,也可以只写一种
                OrgDb = org.Mmu.eg.db)#Orgdb是指对应的注释包是哪个

这个跟我一直报在这里插入图片描述
找不到数据类型,oh,我的上帝呀。不想搞了,花了太多时间,从装包到比对,有解决方法的请指导下,谢谢。

1.3 AnnotationDbi

气急败坏的我又找了一篇,这次终于可以了

gene = data$Geneid# %>% as.data.frame()
df = data.frame(gene)
#BiocManager::install("AnnotationDbi")
library("AnnotationDbi")
df$symbol <- mapIds(org.Mm.eg.db,
                    keys=gene,
                    column="SYMBOL",
                    keytype="ENSEMBL",
                    multiVals="first")
df = na.omit(df) # 删除掉没有匹配掉的
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值