GEO数据预处理（上）

最新推荐文章于 2024-10-22 16:45:01 发布

DrCJ

最新推荐文章于 2024-10-22 16:45:01 发布

阅读量4.3k

点赞数 6

本文链接：https://blog.csdn.net/wmnike/article/details/119166128

版权

本文是GEO数据预处理的上篇，主要介绍了GEO数据库的基本概念，以及如何下载和导入GEO数据。通过实例详细解析了GEO数据的GSE、GSM和GPL三个关键文件，探讨了数据质量检查和初步清洗的步骤，为后续的生物信息学分析奠定基础。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

#本教程适用于从网页下载GSE和GPL文件，直接从R读取，得到表达文件，对于多个探针的基因symbol，选择探针表达量平均值最大的作为基因symbol的唯一探针
setwd("C:\\Users\\lenovo\\Desktop\\GSE55696\\ann")  
a = read.table(file="C:\\Users\\lenovo\\Desktop\\GSE55696\\ann\\probeMatrix.txt",header = T,sep = "\t",fill = T,comment.char = "!")
             rownames(a)=a[,1]#替换列名为第一列
             a=a[,-1]#删除第一列
gpl = read.table(file="C:\\Users\\lenovo\\Desktop\\GSE55696\\ann\\gpl.txt",
               header = T,sep = "\t",quote = "",fill = T)
             gpl1 <- gpl[,c(1,6,7)]#保留GPL中1,6,7列
             write.csv(gpl1,"gpl1.csv") #保存gpl1文件
ids=read.csv("gpl1.csv")#再次读取gpl1文件，命名为ids
ids[ids == ""]<-NA#ids中空值赋值为NA
ids1=ids[complete.cases(ids),]#含有NA的行全部删掉
#ids <- ids[!is.na(ids$ID),]#去掉ids文件中Gene列中为NA的行
length(unique(ids1$GENE_SYMBOL))#unique函数是用来：Extract U