数据分析(二)

数据集中,部分分类变量存在一定程度的缺失,而除了薪水以外的数值变量只存在极少的缺失。对于其余数值变量存在缺失的观测,我们直接采用舍弃的策略。舍弃数值变量存在缺失的变量后,训练集还剩 29951 个观测,测试集还剩 9997 个观测。我们所关心的就只剩如何处理分类变量以及薪水变量中存在的大面积缺失问题。
在这里插入图片描述

因变量不平衡的问题

大多数机器学习分类算法使用了两个假设:各个观测之间是独立的,因变量的分布是平衡的。在本问题中,各个观测之间的独立性并不令人怀疑,但显然因变量的分布极度不平衡。如果这些被错误率驱动的分类算法如果直接运用到不平衡的训练集上,它们会倾向于将所有的观测分类为多数观测 [7]。但显然将所有观测分类为多数观测的预测在这个问题的框架下是毫无意义的,因为我们尤其关心找出那些存在违约风险的客户。
解决方法:
降采样方法:通过舍弃多数类别中的观测达到使各个类别平衡的目的,但该方法的缺陷明
显,即丢失了大量的训练样本的信息。
• 过采样方法:重复采样少数类别中的观测达到使各个类别平衡的目的, 但如果直接使用原始的少数类别样本(例如简单随机过采样),模型存在过拟合的风险。早在2002 年,NV Chawla 等人提出了SMOTE 算法 [8],即向从少数类别提取出的样本添加噪音以避免过拟合。
• 代价敏感学习:一些学者提出通过调整相关目标函数里各个类别的权重达到使模型对少数类别更加敏感的目的。学者们提出了神经网络,支持向量机等的代价敏感学习版本。但权重的确定存在一定的主观性。
我们使用了过采样的方法使训练集中的两个类别观测数目一致。我们尝试了简单过采样与 SMOTE 算法。我们发现在这个问题中,由于随机森林等集成算法具有良好的泛化性能,并不存在过拟合状况,而 SMOTE 算法反而加入了额外的噪音,降低了各个算法的 AUC-ROC,因此我们最终选用了简单过采样。另一个值得注意的问题是,应该将过采样运用在训练集上,而验证集保持因变量分布不平衡的情况。我们衡量算法在验证集上的表现是为了估计模型面对新的数据时的表现,因此我们应该保证验证集里的因变量分布是不平衡的,与现实一致。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值