R语言处理技巧

最新推荐文章于 2025-02-22 22:05:15 发布

小饼干努力学习

最新推荐文章于 2025-02-22 22:05:15 发布

阅读量1.2k

点赞数

分类专栏： R 处理GEO数据文章标签： r语言开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_62771643/article/details/126037900

版权

R 处理GEO数据专栏收录该内容

2 篇文章

订阅专栏

数据整理

筛选：按照一定列名顺序筛选：filter函数

filter（data,colname==""）

按照rowname筛选：subset函数

subset（data,grepl("^.*XXX.*$,data)）

去除空(NA)值：na.omit(data)

delete needless x colname:data[c(-x)]

delete annotation repetition:#将gene annotation变为行名时用到

match(unique(data$X),data$X)

match函数查找数据集中每个唯一X的第一行的位置，然后根据位置提取这些行和所需的列。

distinct(data,data$X,.keep_all=T)

distinct函数必须搜索并排除重复项。.keep_all函数用于保留输出数据框中的所有其他变量，但是会出现一列新数据

将gene annotation变为行名

rownames(data)<-data[,1]#将第一行作为data的行名

data<-data[,-1]#去除第一行

分组差异分析

#构建分组

group_list=ifelse(as.numeric(substr(colnames(data),14,15))<10,'tumor','normal')

design<-model.matrix(~0+factor(group_list))

colnames(design)=levels(factor(group_list))

rownames(design)=colnames(data)

design

#limma标准化，但用到edgeR的calcNormFactors故也得library(edgeR)

dge<-DGEList(counts=data)

dge<-calcNormFactors(dge)

logCPM<-cpm(dge,log=TRUE,prior.count=3)#prior.count=3为了防止取log2过小

#limma差异分析

v<-voom(dge,design,plot = T,normalize="quantile")

fit<-lmFit(v,design)

cont.matrix=makeContrasts(contrasts = c('tumor-normal'),levels = design)

fit2=contrasts.fit(fit,cont.matrix)

fit2=eBayes(fit2)

tempOutput=topTable(fit2,coef = 'tumor-normal',n=Inf)

DEG_limma_voom=na.omit(tempOutput)

head(DEG_limma_voom)

write.csv(DEG_limma_voom,"limma差异分析结果.csv",quote = F,row.names = T)

save(DEG_limma_voom,file = "limma差异分析结果.Rda")

原作者：想养猫的龙哥 https://www.bilibili.com/read/cv9942855/ 出处：bilibili

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。