贷款违约预测第七周周报

最新推荐文章于 2021-10-26 10:06:13 发布

Axinggg11

最新推荐文章于 2021-10-26 10:06:13 发布

阅读量164

点赞数

本文链接：https://blog.csdn.net/zdxy921/article/details/109529951

版权

贷款违约预测数据挖掘题目总结

这次的贷款违约预测数据挖掘题目算是告一段落，成绩不是很好，只有0.722，但是也算是积累了一些数据挖掘的经验，也有一些心得体会。
数据挖掘其实大致分为几个步骤：数据预处理，选取特征值，选取模型，调整模型参数，评估。
其中，数据预处理是一个比较复杂的工作，需要处理缺失值，需要对较大或较小的数据进行取舍，需要将部分字符数据做量化等等。
在这次数据挖掘题目中，我大部分精力其实是在选取特征值和调参上，数据预处理只是简单的用中位数填补了缺失值，然后对一些不能量化的数据进行了量化，然后在特征值选取上主要是画了数据的统计图，来查看年收入、贷款金额等对违约情况的影响，最后得到了大致的结果，比如年收入较高的违约率较低，贷款金额在中间一段违约率较高等等。然后选取了xgboost模型，因为这个模型比较成熟，跑出来结果也比较好，然后在调参上，跑了超长的时间，调整了学习率，最大生成树的数目，数的深度等等参数，然后再进行评估。
整个题目做下来自己的感觉就是，数据挖掘题目想拿一般的分数比较容易，就简单处理一下数据，然后选取适当的模型跑一跑，基本就有一个还行的分数，但是如果想拿高分，就必须要数据预处理以及特征值选取上做很多的工作，比如如何填补缺失值，如何对数据进行取舍，到底哪些特征值才是影响预测的关键等等。然后也需要选取一个合适的模型，以及对于模型的参数进行调整。
本次题目也是我第一次对数据挖掘题目进行实战，所以整体还是了解了一下数据挖掘的过程，并没有追求深度，也没有很深入的对数据进行预处理以及数据分析，只是把整体的流程都跑了一遍，感觉收获很大，毕竟理论和实践差距太大了。有了这次经验，我相信我在以后的数据挖掘题目中，也能一步步的完成，然后在模型优化上也可以有切入点，而不是像之前一样盲目，不知道怎么处理。总之，这次题目算是我数据挖掘的一道入门题，入没入门也不好说，但是起码让我知道了对于数据挖掘，应该怎么处理。

Axinggg11

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
贷款违约预测第七周周报

贷款违约预测数据挖掘题目总结这次的贷款违约预测数据挖掘题目算是告一段落，成绩不是很好，只有0.722，但是也算是积累了一些数据挖掘的经验，也有一些心得体会。数据挖掘其实大致分为几个步骤：数据预处理，选取特征值，选取模型，调整模型参数，评估。其中，数据预处理是一个比较复杂的工作，需要处理缺失值，需要对较大或较小的数据进行取舍，需要将部分字符数据做量化等等。在这次数据挖掘题目中，我大部分精力其实是在选取特征值和调参上，数据预处理只是简单的用中位数填补了缺失值，然后对一些不能量化的数据进行了量化，然后在
复制链接

扫一扫