2020-09-24

最新推荐文章于 2021-05-01 23:40:27 发布

仿佛一个智障

最新推荐文章于 2021-05-01 23:40:27 发布

阅读量68

点赞数

本文链接：https://blog.csdn.net/weixin_44340835/article/details/108784654

版权

文章目录

Task4 建模与调参
学习目标
学习内容
学习笔记

Task4 建模与调参

此部分为零基础入门金融风控的 Task4 建模调参部分，带你来了解各种模型以及模型的评价和调参策略，欢迎大家后续多多交流。

赛题：零基础入门数据挖掘 - 零基础入门金融风控之贷款违约预测

项目地址：https://github.com/datawhalechina/team-learning-data-mining/tree/master/FinancialRiskControl

比赛地址：https://tianchi.aliyun.com/competition/entrance/531830/introduction

学习目标

学习在金融分控领域常用的机器学习模型
学习机器学习模型的建模过程与调参流程

学习内容

1.逻辑回归模型：
（1）理解逻辑回归模型
（2）逻辑回归模型的应用
（3）逻辑回归的优缺点
2.树模型
（1）理解树模型
（2）理解树模型
（3）树模型的优缺点
3.集成模型
（1）基于bagging思想的集成模型
（2）基于boosting思想的集成模型
4.模型对比与性能评估
（1）回归模型/树模型/集成模型；
（2）模型评估方法
（3）模型评价结果
5.模型调参
（1）贪心调参方法
（2）网格调参方法
（3）贝叶斯调参方法

学习笔记

逻辑回归模型

逻辑回归的本质和线性回归一样，线性回归是求出一条拟合空间中所有点的线，逻辑回归使用sigmoid函数转换线性回归的输出以返回概率值，然后可以将概率值映射到两个或更多个离散类

树模型

优点
简单直观，生成的决策树可以可视化展示
数据不需要预处理，不需要归一化，不需要处理缺失数据
既可以处理离散值，也可以处理连续值
缺点
决策树算法非常容易过拟合，导致泛化能力不强（可进行适当的剪枝）
采用的是贪心算法，容易得到局部最优解

集成模型

通过组合多个学习器来完成学习任务，通过集成方法，可以将多个弱学习器组合成一个强分类器，因此集成学习的泛化能力一般比单一分类器要好。集成方法主要包括Bagging和Boosting，Bagging和Boosting都是将已有的分类或回归算法通过一定方式组合起来，形成一个更加强大的分类。两种方法都是把若干个分类器整合为一个分类器的方法，只是整合的方式不一样，最终得到不一样的效果。常见的基于Baggin思想的集成模型有：随机森林、基于Boosting思想的集成模型有：Adaboost、GBDT、XgBoost、LightGBM等。

模型对比与性能评估

数据集划分总结
对于数据量充足的时候，通常采用留出法或者k折交叉验证法来进行训练/测试集的划分；
对于数据集小且难以有效划分训练/测试集时使用自助法；
对于数据集小且可有效划分的时候最好使用留一法来进行划分，因为这种方法最为准确。
如果模型A的ROC曲线完全包住了模型B的ROC曲线，那么我们就认为模型A要优于模型B，如果两条曲线有交叉的话，我们就通过比较ROC与X，Y轴所围得曲线的面积来判断，面积越大，模型的性能就越优，这个面积我们称之为AUC(area under ROC curve)

模型调参

先使用当前对模型影响最大的参数进行调优，达到当前参数下的模型最优化，再使用对模型影响次之的参数进行调优，如此下去，直到所有的参数调整完毕，这个方法的缺点就是可能会调到局部最优而不是全局最优。
sklearn 提供GridSearchCV用于进行网格搜索，只需要把模型的参数输进去，就能给出最优化的结果和参数。相比起贪心调参，网格搜索的结果会更优，但是网格搜索只适合于小数据集，一旦数据的量级上去了，很难得出结果。
贝叶斯调参的主要思想是：给定优化的目标函数(广义的函数，只需指定输入和输出即可，无需知道内部结构以及数学性质)，通过不断地添加样本点来更新目标函数的后验分布(高斯过程,直到后验分布基本贴合于真实分布）。简单的说，就是考虑了上一次参数的信息，从而更好的调整当前的参数。