贷款违约预测第七周周报

贷款违约预测数据挖掘题目总结

  • 这次的贷款违约预测数据挖掘题目算是告一段落,成绩不是很好,只有0.722,但是也算是积累了一些数据挖掘的经验,也有一些心得体会。
  • 数据挖掘其实大致分为几个步骤:数据预处理,选取特征值,选取模型,调整模型参数,评估。
  • 其中,数据预处理是一个比较复杂的工作,需要处理缺失值,需要对较大或较小的数据进行取舍,需要将部分字符数据做量化等等。
  • 在这次数据挖掘题目中,我大部分精力其实是在选取特征值和调参上,数据预处理只是简单的用中位数填补了缺失值,然后对一些不能量化的数据进行了量化,然后在特征值选取上主要是画了数据的统计图,来查看年收入、贷款金额等对违约情况的影响,最后得到了大致的结果,比如年收入较高的违约率较低,贷款金额在中间一段违约率较高等等。然后选取了xgboost模型,因为这个模型比较成熟,跑出来结果也比较好,然后在调参上,跑了超长的时间,调整了学习率,最大生成树的数目,数的深度等等参数,然后再进行评估。
  • 整个题目做下来自己的感觉就是,数据挖掘题目想拿一般的分数比较容易,就简单处理一下数据,然后选取适当的模型跑一跑,基本就有一个还行的分数,但是如果想拿高分,就必须要数据预处理以及特征值选取上做很多的工作,比如如何填补缺失值,如何对数据进行取舍,到底哪些特征值才是影响预测的关键等等。然后也需要选取一个合适的模型,以及对于模型的参数进行调整。
  • 本次题目也是我第一次对数据挖掘题目进行实战,所以整体还是了解了一下数据挖掘的过程,并没有追求深度,也没有很深入的对数据进行预处理以及数据分析,只是把整体的流程都跑了一遍,感觉收获很大,毕竟理论和实践差距太大了。有了这次经验,我相信我在以后的数据挖掘题目中,也能一步步的完成,然后在模型优化上也可以有切入点,而不是像之前一样盲目,不知道怎么处理。总之,这次题目算是我数据挖掘的一道入门题,入没入门也不好说,但是起码让我知道了对于数据挖掘,应该怎么处理。
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值