（完整代码）R语言中利用SVM-RFE机器学习算法筛选关键因子

懒的很

已于 2024-07-24 13:28:01 修改

阅读量2w

点赞数 39

分类专栏：生信文章标签：支持向量机 r语言机器学习

于 2023-03-20 09:42:27 首次发布

本文链接：https://blog.csdn.net/weixin_55842556/article/details/128828895

版权

生信专栏收录该内容

1 篇文章

订阅专栏

文章介绍了如何利用R语言的e1071包进行SVM-RFE方法来识别和筛选关键基因，同时提到了并行计算以加速计算过程，涉及GEOquery、DESeq2、limma等多个生物信息学分析工具。作者分享了自己的代码，包括交叉验证和结果可视化，并强调代码主要基于已有资源进行整合。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

自用生信代码，花费一个多月写下来的。自学R以来第一次写600多行的代码。我的文章已经发表，如对您的研究有帮助希望可以引用一下。PMID：36930329，文章点我直达

SVM-RFE

主要是借助e1071包，实现mSVM-REF识别并筛选关键基因，没有安装的小伙伴需要安装一下。

install.packages("e1071")

mSVM-REF函数是John Colby教授写的链接点我。如无法上GitHub，我也上传在我的gitee仓库里，可以点击右边的1直达1。

输入文件整理成这种样子，即行为样本，列为基因，第一列是分组信息（我只做了两组比较，多组对比需要再研究）。
input格式
函数是已经写好的，我们直接引用即可。

set.seed(2023)
library(e1071)

#这里填写你存放的文件路径
source("D:\\ProgramFiles\\R\\Work\\msvmRFE.R")

nfold = 10 #10倍交叉验证
nrows = nrow(input)
folds = rep(1:nfold, len=nrows)[sample(nrows)]
folds = lapply(1:nfold, function(x) which(folds == x))

results = lapply(folds, svmRFE.wrap, input, k=10, halve.above=100)
top.features = WriteFeatures(results, input, save=F)
featsweep = lapply(1:5, FeatSweep.wrap, results, input)

no.info = min(prop.table(table(input[,1])))
errors = sapply(featsweep, function(x) ifelse(is.null(x), NA, x$error))

pdf("svm_rfe.pdf", height = 8, width = 10)
PlotErrors(errors, no.info=no.info)
dev.off()
plot(top.features)#这个图也可以保存

另外我还参考了的Maryam教授的并行代码链接点我，并行计算，提高计算速度。前提是要在win10系统中需要安装Rmpi。印象中我折腾了一下才装上，如果没安装成功，就不要尝试了，用上面的代码让它慢慢跑也是可以出结果的。

set.seed(2023)

library(e1071)
library(Rmpi)
library(snow)
library(parallel)

#这里填写你存放的文件路径
source("D:\\ProgramFiles\\R\\Work\\msvmRFE.R")

nfold = 10 #10倍交叉验证
nrows = nrow(input)
folds = rep(1:nfold, len=nrows)[sample(nrows)]
folds = lapply(1:nfold, function(x) which(folds == x))

#make a cluster
cl <- makeMPIcluster(mpi.universe.size())

clusterExport(cl, list("input","svmRFE","getWeights","svm"))
results <-parLapply(cl,folds, svmRFE.wrap, input, k=10, halve.above=100)
top.features = WriteFeatures(results, input, save=F)

clusterExport(cl, list("top.features","results", "tune","tune.control"))
featsweep = parLapply(cl,1:100, FeatSweep.wrap, results, input)
stopCluster(cl)

no.info = min(prop.table(table(input[,1])))
errors = sapply(featsweep, function(x) ifelse(is.null(x), NA, x$error))

pdf("svm_rfe.pdf", height = 8, width = 10)
PlotErrors(errors, no.info=no.info)
dev.off()
plot(top.features)
mpi.exit()