【Bioinfo Blog 006】【R Code 005】——GEO表达谱数据质控

一、数据下载及质控

1.1 GEO数据下载

1.1.1 GEOquery包安装

注意:需要R 4.0及以上

if (!requireNamespace("BiocManager", quietly = TRUE))
    install.packages("BiocManager")
    
BiocManager::install("GEOquery")

1.1.2 .cel数据下载

每个探针的荧光强度测量数据以cel格式的文件形式保存,文件中包含每个探针集的原始强度。cdf文件:芯片描述文件,用于分析和注释数据。

getGEOSuppFiles("GSE65496")
## 定位到目标目录后,解压文件
untar("GSE46106_RAW.tar")

1.2 读取.cel文件

1.2.1 Affy包安装

BiocManager::install("affy")

1.2.2 利用ReadAffy()读入.cel文件

ReadAffy()可读取CEL文件转换成AffyBatch对象,CEL文件无论是否压缩均可读取。ReadAffy()在不输入任何参数的时候表示读取工作路径下所有的CEL文件。若输入ReadAffy(widget=T),则表示手动选择要读取的CEL文件。

## Read in .cel files with ReadAffy()
## set target direction
dir <- choose.dir(caption = "Select folder")
## list .cel file
## 利用正则表达式捕获文件夹中以.CEL.gz结尾的文件
cel.files <- list.files(path = dir, pattern = ".+\\.CEL.gz$", ignore.case = TRUE,full.names = TRUE, recursive = TRUE)
## check the file name
basename(cel.files)
## read in the file
## 得到AffyBatch文件
data.raw <- ReadAffy(filenames = cel.files)

1.3 样本重命名(仅保留GSEM号)

library(stringi)
## 10表示GSM号的长度,如:GSM1598827,即为10
sampleNames(data.raw)<-stri_sub(sampleNames(data.raw),1,10)
## 查看样本名
sampleNames(data.raw)

1.4 构建样本分组信息

pData(data.raw)
group_file=pData(data.raw)
group_file$sample=rownames
  • 6
    点赞
  • 46
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值