一、数据下载及质控
1.1 GEO数据下载
1.1.1 GEOquery包安装
注意:需要R 4.0及以上
if (!requireNamespace("BiocManager", quietly = TRUE))
install.packages("BiocManager")
BiocManager::install("GEOquery")
1.1.2 .cel数据下载
每个探针的荧光强度测量数据以cel格式的文件形式保存,文件中包含每个探针集的原始强度。cdf文件:芯片描述文件,用于分析和注释数据。
getGEOSuppFiles("GSE65496")
## 定位到目标目录后,解压文件
untar("GSE46106_RAW.tar")
1.2 读取.cel文件
1.2.1 Affy包安装
BiocManager::install("affy")
1.2.2 利用ReadAffy()读入.cel文件
ReadAffy()
可读取CEL文件转换成AffyBatch对象,CEL文件无论是否压缩均可读取。ReadAffy()
在不输入任何参数的时候表示读取工作路径下所有的CEL文件。若输入ReadAffy(widget=T),则表示手动选择要读取的CEL文件。
## Read in .cel files with ReadAffy()
## set target direction
dir <- choose.dir(caption = "Select folder")
## list .cel file
## 利用正则表达式捕获文件夹中以.CEL.gz结尾的文件
cel.files <- list.files(path = dir, pattern = ".+\\.CEL.gz$", ignore.case = TRUE,full.names = TRUE, recursive = TRUE)
## check the file name
basename(cel.files)
## read in the file
## 得到AffyBatch文件
data.raw <- ReadAffy(filenames = cel.files)
1.3 样本重命名(仅保留GSEM号)
library(stringi)
## 10表示GSM号的长度,如:GSM1598827,即为10
sampleNames(data.raw)<-stri_sub(sampleNames(data.raw),1,10)
## 查看样本名
sampleNames(data.raw)
1.4 构建样本分组信息
pData(data.raw)
group_file=pData(data.raw)
group_file$sample=rownames