【GEOquery包学习】

本文详细介绍了GEOquery包中GDS(基因表达数据系列)、GSE(基因表达系列)、GSM(基因样品模块)和GPL(基因表达平台)的关键概念及获取方法,以及如何将GDS和GSE对象转换为ExpressionSets和MALists以便进一步分析。
摘要由CSDN通过智能技术生成

GEOquery包学习

记住GEO四种标志——GPL、GDS、GSE、GSM。

关键函数getGEO,

用getGEO取四种对象,

1、GDS是GDS文件,

gds <- getGEO("GDS507")

GEO官网上说该数据集为GPL97、有17个样本。

GDS对象包含GPL对象,GEODataTable(包含临床信息和表达矩阵),list(包含一些附注)。

2、最重要的GSE,

gse <- getGEO("GSE781",GSEMatrix=FALSE)gse2553 <- getGEO('GSE2553',GSEMatrix=TRUE)

上面两种的区别在于,第一种是一个GSE文件,包含list(包含一些附注)、另一个list(包含所有GSM文件)也就是说、一堆GPL。第二种是一个只有一个元素的list,元素是expressionSet(内含MIAME文件、AnnotatedDataFrame、Version),这些文件格式均来自biobase包。

GSE和GDS区别在于:GDS中患者的表达矩阵和分组都在datatable里面,且所有患者只有都是一个GPL。GSE中可以有多个GPL。

3、GSM是GSM文件,包含GEODataTable、list。

gds <- getGEO("GSM11805")

4、GPL

gpl <- getGEO(filename=system.file("extdata/GPL97.annot.gz",package="GEOquery"))

gpl内含GEODataTable、list。

转变为ExpressionSets或者limma MALists,

GSE对象转变为ExpressionSets

gse2553 <- getGEO('GSE2553',GSEMatrix=TRUE)

要注意,上面的2553恰好所有对象都是一个GPL,如果一个GSE有多个GPL要先过滤然后取出里面的表达矩阵、分组信息,自己创建一个ExpressionSets。

GDS对象转变为ExpressionSets

eset <- GDS2eSet(gds,do.log2=TRUE)

GDS转变为MAList

MA <- GDS2MA(gds,GPL=gpl)
  • 9
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值