机器学习之信用卡诈骗案例总结

操作流程

  1. 首先观察数据发现有一类特征浮动较大,我们对其进行归一化预处理,使用sklearn库中的函数

  2. 由于两类样本数目存在明显差异,因此我们采用下采样(从多的样本中挑出和少的样本一样少的数目)和过采样的方法(构造少的样本,使之和多的样本一样多)

  3. 我们将所有样本按照自定义比例分为训练集和测试集,训练集用于调参,测试集用于测试模型的可行性,在训练集采用交叉验证的方法

  4. 为防止过拟合,我们采用正则化惩罚(惩罚对象是参数)的方法,设置了几个不同的惩罚力度观察其效果

  5. 在评估模型时,我们引入了几个判断标准,召回率,精度,误杀率,等来共同判断模型的优劣

  6. 我们可以通过调整逻辑回归的阈值(它的阈值我们一般采用的是0.5)来实现自己想要的效果

  7. 在进行过采样方法时,我们使用了SMOTE算法进行少数样本的扩倍

总结

  1. 从结果上看,过采样模型的效果明显高于下采样模型,因为过采样模型使用了更多的样本,模型的训练效果更好,更具有泛化性

  2. 没有最好的模型,适合的才是最好的。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值