3.特征工程
3.1特征提取
根据Num30-59,Num60-89,Num90创建一个型变量,将其加总后的值大于1的设定为因子"1"和"0"表示逾期和未预期。
traindata$All<-traindata$Num30.59+traindata$Num90+traindata$Num60.89
traindata$All<-ifelse(traindata$All>1,1,0)
3.2 切分数据
利用caret包中的createDataPartition(数据分割功能)函数将数据随机分成相同的两份。训练集和测集的结果是平衡的,大致都为6.6%左右,因此可以采用这份切割的数据进行建模及预测。
set.seed(123)
splitIndex<-createDataPartition(traindata$y,time=1,p=0.5,list=FALSE) #切分数据集
train<-traindata[splitIndex,-ncol(traindata)]
test<-traindata[-splitIndex,-ncol(traindata)]
prop.table(table(train$y))
prop.table(table(test$y))
prop.table(table(train$y))
0 1
0.93764043 0.06235957
prop.table(table(test$y))