GEO数据预处理(上)

本文是GEO数据预处理的上篇,主要介绍了GEO数据库的基本概念,以及如何下载和导入GEO数据。通过实例详细解析了GEO数据的GSE、GSM和GPL三个关键文件,探讨了数据质量检查和初步清洗的步骤,为后续的生物信息学分析奠定基础。
摘要由CSDN通过智能技术生成
#本教程适用于从网页下载GSE和GPL文件,直接从R读取,得到表达文件,对于多个探针的基因symbol,选择探针表达量平均值最大的作为基因symbol的唯一探针
setwd("C:\\Users\\lenovo\\Desktop\\GSE55696\\ann")  
a = read.table(file="C:\\Users\\lenovo\\Desktop\\GSE55696\\ann\\probeMatrix.txt",header = T,sep = "\t",fill = T,comment.char = "!")
             rownames(a)=a[,1]#替换列名为第一列
             a=a[,-1]#删除第一列
gpl = read.table(file="C:\\Users\\lenovo\\Desktop\\GSE55696\\ann\\gpl.txt",
               header = T,sep = "\t",quote = "",fill = T)
             gpl1 <- gpl[,c(1,6,7)]#保留GPL中1,6,7列
             write.csv(gpl1,"gpl1.csv") #保存gpl1文件
ids=read.csv("gpl1.csv")#再次读取gpl1文件,命名为ids
ids[ids == ""]<-NA#ids中空值赋值为NA
ids1=ids[complete.cases(ids),]#含有NA的行全部删掉
#ids <- ids[!is.na(ids$ID),]#去掉ids文件中Gene列中为NA的行
length(unique(ids1$GENE_SYMBOL))#unique函数是用来:Extract U
  • 5
    点赞
  • 56
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值