#本教程适用于从网页下载GSE和GPL文件,直接从R读取,得到表达文件,对于多个探针的基因symbol,选择探针表达量平均值最大的作为基因symbol的唯一探针
setwd("C:\\Users\\lenovo\\Desktop\\GSE55696\\ann")
a = read.table(file="C:\\Users\\lenovo\\Desktop\\GSE55696\\ann\\probeMatrix.txt",header = T,sep = "\t",fill = T,comment.char = "!")
rownames(a)=a[,1]#替换列名为第一列
a=a[,-1]#删除第一列
gpl = read.table(file="C:\\Users\\lenovo\\Desktop\\GSE55696\\ann\\gpl.txt",
header = T,sep = "\t",quote = "",fill = T)
gpl1 <- gpl[,c(1,6,7)]#保留GPL中1,6,7列
write.csv(gpl1,"gpl1.csv") #保存gpl1文件
ids=read.csv("gpl1.csv")#再次读取gpl1文件,命名为ids
ids[ids == ""]<-NA#ids中空值赋值为NA
ids1=ids[complete.cases(ids),]#含有NA的行全部删掉
#ids <- ids[!is.na(ids$ID),]#去掉ids文件中Gene列中为NA的行
length(unique(ids1$GENE_SYMBOL))#unique函数是用来:Extract U
GEO数据预处理(上)
最新推荐文章于 2024-10-22 16:45:01 发布