GEOquery包学习
记住GEO四种标志——GPL、GDS、GSE、GSM。
关键函数getGEO,
用getGEO取四种对象,
1、GDS是GDS文件,
gds <- getGEO("GDS507")
GEO官网上说该数据集为GPL97、有17个样本。
GDS对象包含GPL对象,GEODataTable(包含临床信息和表达矩阵),list(包含一些附注)。
2、最重要的GSE,
gse <- getGEO("GSE781",GSEMatrix=FALSE)gse2553 <- getGEO('GSE2553',GSEMatrix=TRUE)
上面两种的区别在于,第一种是一个GSE文件,包含list(包含一些附注)、另一个list(包含所有GSM文件)也就是说、一堆GPL。第二种是一个只有一个元素的list,元素是expressionSet(内含MIAME文件、AnnotatedDataFrame、Version),这些文件格式均来自biobase包。
GSE和GDS区别在于:GDS中患者的表达矩阵和分组都在datatable里面,且所有患者只有都是一个GPL。GSE中可以有多个GPL。
3、GSM是GSM文件,包含GEODataTable、list。
gds <- getGEO("GSM11805")
4、GPL
gpl <- getGEO(filename=system.file("extdata/GPL97.annot.gz",package="GEOquery"))
gpl内含GEODataTable、list。
转变为ExpressionSets或者limma MALists,
GSE对象转变为ExpressionSets
gse2553 <- getGEO('GSE2553',GSEMatrix=TRUE)
要注意,上面的2553恰好所有对象都是一个GPL,如果一个GSE有多个GPL要先过滤然后取出里面的表达矩阵、分组信息,自己创建一个ExpressionSets。
GDS对象转变为ExpressionSets
eset <- GDS2eSet(gds,do.log2=TRUE)
GDS转变为MAList
MA <- GDS2MA(gds,GPL=gpl)