(完整代码)R语言中利用SVM-RFE机器学习算法筛选关键因子

前言

自用生信代码, 花费一个多月写下来的。自学R以来第一次写600多行的代码。我的文章已经发表,如对您的研究有帮助希望可以引用一下。PMID:36930329,文章点我直达

SVM-RFE

主要是借助e1071包, 实现mSVM-REF识别并筛选关键基因,没有安装的小伙伴需要安装一下。

install.packages("e1071")

mSVM-REF函数是John Colby教授写的链接点我。如无法上GitHub,我也上传在我的gitee仓库里,可以点击右边的1直达1

输入文件整理成这种样子,即行为样本,列为基因,第一列是分组信息(我只做了两组比较,多组对比需要再研究)。
input格式
函数是已经写好的,我们直接引用即可。

set.seed(2023)
library(e1071)

#这里填写你存放的文件路径
source("D:\\ProgramFiles\\R\\Work\\msvmRFE.R")

nfold = 10 #10倍交叉验证
nrows = nrow(input)
folds = rep(1:nfold, len=nrows)[sample(nrows)]
folds = lapply(1:nfold, function(x) which(folds == x))

results = lapply(folds, svmRFE.wrap, input, k=10, halve.above=100)
top.features = WriteFeatures(results, input, save=F)
featsweep = lapply(1:5, FeatSweep.wrap, results, input)

no.info = min(prop.table(table(input[,1])))
errors = sapply(featsweep, function(x) ifelse(is.null(x), NA, x$error))

pdf("svm_rfe.pdf", height = 8, width = 10)
PlotErrors(errors, no.info=no.info)
dev.off()
plot(top.features)#这个图也可以保存

另外我还参考了的Maryam教授的并行代码链接点我,并行计算,提高计算速度。前提是要在win10系统中需要安装Rmpi。 印象中我折腾了一下才装上,如果没安装成功,就不要尝试了,用上面的代码让它慢慢跑也是可以出结果的。

set.seed(2023)

library(e1071)
library(Rmpi)
library(snow)
library(parallel)

#这里填写你存放的文件路径
source("D:\\ProgramFiles\\R\\Work\\msvmRFE.R")

nfold = 10 #10倍交叉验证
nrows = nrow(input)
folds = rep(1:nfold, len=nrows)[sample(nrows)]
folds = lapply(1:nfold, function(x) which(folds == x))

#make a cluster
cl <- makeMPIcluster(mpi.universe.size())

clusterExport(cl, list("input","svmRFE","getWeights","svm"))
results <-parLapply(cl,folds, svmRFE.wrap, input, k=10, halve.above=100)
top.features = WriteFeatures(results, input, save=F)

clusterExport(cl, list("top.features","results", "tune","tune.control"))
featsweep = parLapply(cl,1:100, FeatSweep.wrap, results, input)
stopCluster(cl)

no.info = min(prop.table(table(input[,1])))
errors = sapply(featsweep, function(x) ifelse(is.null(x), NA, x$error))

pdf("svm_rfe.pdf", height = 8, width = 10)
PlotErrors(errors, no.info=no.info)
dev.off()
plot(top.features)
mpi.exit()

其他内容

我文章中所用的其他代码,包括下载数据、差异分析、lasso回归、随机森林等网上的攻略已经很多了,就不再重复,只是把我实际使用的贴出来给大家做参考,可以点旁边这个1访问。1

  • GEOquery包下载GEO中的数据。(有时候下不下来还是需要自己手动下载读取)
  • limma包对芯片数据进行差异分析。
  • DESeq2包对测序数据进行差异分析。
  • MEGENA包构建共表达图谱。
  • glmnet包实现lasso回归筛选
  • randomForest包实现随机森林筛选。
  • venn包绘制韦恩图。
  • pROC包检验预测效果。
  • CIBERSORT进行免疫浸润分析(函数代码点我)。
  • 用ggplot2,余叔的aplot等包进行了一些可视化。

代码写的有点乱,具体讲解先鸽了,有时间再来整理。
如果看不懂的可以在下面评论和私信我。

最后想说

其实这些代码都是别人写好的,我只是搬运过来。就好比人家花了好多时间养好的鱼被我买过来,再卖给大家,我是个香香的卖鱼的。

我不生产代码,只是代码的搬运工。

  • 31
    点赞
  • 117
    收藏
    觉得还不错? 一键收藏
  • 118
    评论
评论 118
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值