操作流程
-
首先观察数据发现有一类特征浮动较大,我们对其进行归一化预处理,使用sklearn库中的函数
-
由于两类样本数目存在明显差异,因此我们采用下采样(从多的样本中挑出和少的样本一样少的数目)和过采样的方法(构造少的样本,使之和多的样本一样多)
-
我们将所有样本按照自定义比例分为训练集和测试集,训练集用于调参,测试集用于测试模型的可行性,在训练集采用交叉验证的方法
-
为防止过拟合,我们采用正则化惩罚(惩罚对象是参数)的方法,设置了几个不同的惩罚力度观察其效果
-
在评估模型时,我们引入了几个判断标准,召回率,精度,误杀率,等来共同判断模型的优劣
-
我们可以通过调整逻辑回归的阈值(它的阈值我们一般采用的是0.5)来实现自己想要的效果
-
在进行过采样方法时,我们使用了SMOTE算法进行少数样本的扩倍
总结
-
从结果上看,过采样模型的效果明显高于下采样模型,因为过采样模型使用了更多的样本,模型的训练效果更好,更具有泛化性
-
没有最好的模型,适合的才是最好的。