前面我们讲了logistic回归预测模型的建立,今天介绍的是模型的验证,可以在训练集和验证集中通过ROC曲线、校准曲线和决策曲线分别进行验证。
1、原始数据
原始数据分为训练集和验证集,其中训练集用于模型的构建和内部验证,验证集用于外部验证。两个数据集都包含5列,且列名相同。组别Group为因变量,1代表阳性结局,0代表阴性结局。自变量1和4为连续性变量,自变量2和3为二分类变量。
2、安装所需要的R包
install.packages('rms')#用于构建和分析回归模型,特别是逻辑回归模型和列线图
install.packages('pROC')#用于生成和分析ROC曲线,评估模型的分类性能
install.packages('readr')#用于读取和处理CSV格式的数据
install.packages('riskRegression')#用于计算校准曲线、Brier分数等
install.packages('rmda')#用于决策曲线分析(DCA),评估不同风险模型的临床效益
install.packages('glue')#用于简化字符串的拼接和格式化
3、加载所需要的R包
library(rms)
library(pROC)
library(readr)
library(riskRegression)
library(rmda)
library(glue)
4、导入训练和验证数据集
通过read_csv函数从CSV文件中读取训练集和验证集数据,分别存储在training_dataset和validation_dataset变量中。
training_dataset<-read_csv("C:/Users/Lenovo/Desktop/data/training.csv")
validation_dataset<-read_csv("C:/Users/Lenovo/Desktop/data/validation.csv")
5、用训练集建模并在训练集和验证集上绘制ROC曲线
5.1 在训练集上构建模型
使用lrm函数(来自rms包)在训练集上构建逻辑回归模型,其中Group为因变量,variable1和variable2是通过单因素和多因素分析筛选出来的自变量。x=TRUE和y=TRUE指定返回预测值和响应值,maxit=1000设置最大迭代次数为1000次。