GEO数据库可以说是大家使用频率贼高的数据库啦!那它里面的数据怎么下载大家知道嘛!今天给大家展示一种快速获取它的表达矩阵和临床信息的方法!
话不多说!咱们直接开始!
GEO编号获取
在GEO数据库中,你找到了你需要的数据,接下来怎么办嘞!下载它!处理它!
比如,咱们今天需要的数据是这个:

GEO编号这不就有咯!咱们开始下载!噢对,提前吱一声,芯片数据和非芯片数据进行ID转换的时候方法不太一样,大家要注意噢!我今天会都给大家演示一下!
GEO数据库今天咱就不介绍了哈!我后面再专门出一期超级详细地介绍它!迫切的小伙伴可以在后台或群里催我哈哈哈哈哈哈哈哈!
另外注意:不是所有的GEO数据集都可以使用这种方法下载。不过通常来说,大部分的GEO数据集都可以通过
getGEO函数进行下载,但也有一些例外情况,特别是单细胞数据[无奈脸]!多数情况下,应该是数据集可能不是以类似的格式存储,或者有的作者上传格式不对等等,所以就需要找其他办法或者手动下载啦!建议就是先试试这种方法,要是里面是空的,就去手动或者其他!
数据下载
芯片数据
#################### GEO数据下载及表达矩阵与临床信息获取 #######################
# 加载包,没有安装的记得安装一下哟!
library(tidyverse)
library(GEOquery)
library(tinyarray)
# 芯片数据
# GEO编号,替换成你自己的就好啦!
geo_number = "GSE66360"
# 这一步啊,看运气!网络时好时坏,是个玄学!一次不行不要慌!咱多跑几次!总会成功的!
geo_data <- getGEO(geo_number, destdir = './', getGPL = F) # 自己设置想保存的路径
geo_data0 <- geo_data[[1]]
数据长这样!

# 提取表达矩阵
exp <- exprs(geo_data0)
dim(exp)
# [1] 54675 99
exp[1:4, 1:4]
# GSM1620819 GSM1620820 GSM1620821 GSM1620822
# 1007_s_at 5.866378 4.948736 5.148384 5.064419
# 1053_at 8.225790 7.525865 7.764637 7.198461
# 117_at 6.179732 6.628137 5.859151 5.974135
# 121_at 6.179478 6.582889 6.602135 6.545905
# 可以看到这里还是探针ID,咱们后给它面转换为基因symbol!
# 可以自行判断是否需要log
exp <- log2(exp + 0

最低0.47元/天 解锁文章
2735

被折叠的 条评论
为什么被折叠?



