如何快速下载GEO数据并获取其表达矩阵与临床信息 | 附完整代码 + 注释

GEO数据库可以说是大家使用频率贼高的数据库啦!那它里面的数据怎么下载大家知道嘛!今天给大家展示一种快速获取它的表达矩阵和临床信息的方法!

话不多说!咱们直接开始!

GEO编号获取

在GEO数据库中,你找到了你需要的数据,接下来怎么办嘞!下载它!处理它!

比如,咱们今天需要的数据是这个:

GEO编号这不就有咯!咱们开始下载!噢对,提前吱一声,芯片数据和非芯片数据进行ID转换的时候方法不太一样,大家要注意噢!我今天会都给大家演示一下!

GEO数据库今天咱就不介绍了哈!我后面再专门出一期超级详细地介绍它!迫切的小伙伴可以在后台或群里催我哈哈哈哈哈哈哈哈!

另外注意:不是所有的GEO数据集都可以使用这种方法下载。不过通常来说,大部分的GEO数据集都可以通过getGEO函数进行下载,但也有一些例外情况,特别是单细胞数据[无奈脸]!多数情况下,应该是数据集可能不是以类似的格式存储,或者有的作者上传格式不对等等,所以就需要找其他办法或者手动下载啦!

建议就是先试试这种方法,要是里面是空的,就去手动或者其他!

数据下载

芯片数据

#################### GEO数据下载及表达矩阵与临床信息获取 #######################

# 加载包,没有安装的记得安装一下哟!
library(tidyverse)
library(GEOquery)
library(tinyarray)

# 芯片数据

# GEO编号,替换成你自己的就好啦!
geo_number = "GSE66360"

# 这一步啊,看运气!网络时好时坏,是个玄学!一次不行不要慌!咱多跑几次!总会成功的!
geo_data <- getGEO(geo_number, destdir = './', getGPL = F) # 自己设置想保存的路径
geo_data0 <- geo_data[[1]]

数据长这样!

# 提取表达矩阵
exp <- exprs(geo_data0)
dim(exp)
# [1] 54675    99

exp[1:4, 1:4]
#           GSM1620819 GSM1620820 GSM1620821 GSM1620822
# 1007_s_at   5.866378   4.948736   5.148384   5.064419
# 1053_at     8.225790   7.525865   7.764637   7.198461
# 117_at      6.179732   6.628137   5.859151   5.974135
# 121_at      6.179478   6.582889   6.602135   6.545905

# 可以看到这里还是探针ID,咱们后给它面转换为基因symbol!

# 可以自行判断是否需要log
exp <- log2(exp + 0
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

生信小白要知道

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值