广工大叔协阿里云天池金融风控训练营-Task4

最新推荐文章于 2021-05-05 22:15:58 发布

梦里韵韵子

最新推荐文章于 2021-05-05 22:15:58 发布

阅读量189

点赞数

分类专栏：笔记

本文链接：https://blog.csdn.net/weixin_52311669/article/details/116288638

版权

笔记专栏收录该内容

3 篇文章 0 订阅

订阅专栏

本文介绍了阿里云天池龙珠计划金融风控训练营中的关键内容，涵盖逻辑回归模型的原理与优缺点，决策树模型的应用，以及随机森林、XGBoost和LightGBM等集成模型的构建与性能评估。通过实例讲解模型对比与调参技巧，帮助理解模型优化策略。

摘要由CSDN通过智能技术生成

Task 4

本学习笔记为阿里云天池龙珠计划金融风控训练营的学习内容，
学习链接
 项目地址
 比赛地址

一、学习大纲

1.逻辑回归模型
2.树模型
3.集成模型
4.模型对比与性能评估
5.模型调参

二、学习内容

1.逻辑回归模型

逻辑回归是应用非常广泛的一个分类机器学习算法，它将数据拟合到一个logit函数(或者叫做logistic函数)中，从而能够完成对事件发生的概率进行预测。

1)sigmoid函数

在这里插入图片描述

2)判定边界

判定边界是用以对不同类别的数据分割的边界，边界的两旁应该是不同类别的数据。

3）代价函数与梯度下降

所谓的代价函数Cost Function，其实是一种衡量我们在这组参数下预估的结果和实际结果差距的函数，比如说线性回归的代价函数定义为:
梯度下降，梯度下降算法是调整参数θ使得代价函数J(θ)取得最小值的最基本方法之一。从直观上理解，就是我们在碗状结构的凸函数上取一个初始值，然后挪动这个值一步步靠近最低点的过程，如下图所示：

４）逻辑回归模型的优缺点

优点：
　（1）训练速度较快，分类的时候，计算量仅仅只和特征的数目相关；
　（2）简单易理解，模型的可解释性非常好，从特征的权重可以看到不同的特征对最后结果的影响；
　（3）适合二分类问题，不需要缩放输入特征；
　（4）内存资源占用小，因为只需要存储各个维度的特征值；
缺点：
　（1）不能用Logistic回归去解决非线性问题，因为Logistic的决策面试线性的；
　（2）对多重共线性数据较为敏感；
　（3）很难处理数据不平衡的问题；
　（4）准确率并不是很高，因为形式非常的简单(非常类似线性模型)，很难去拟合数据的真实分布；
　（5）逻辑回归本身无法筛选特征，有时会用gbdt来筛选特征，然后再上逻辑回归

２．树模型

决策树(decision tree)是一种基本的分类与回归方法。

１）使用决策树做预测需要以下过程：

收集数据：可以使用任何方法。比如想构建一个相亲系统，我们可以从媒婆那里，或者通过参访相亲对象获取数据。根据他们考虑的因素和最终的选择结果，就可以得到一些供我们利用的数据了。
准备数据：收集完的数据，我们要进行整理，将这些所有收集的信息按照一定规则整理出来，并排版，方便我们进行后续处理。
分析数据：可以使用任何方法，决策树构造完成之后，我们可以检查决策树图形是否符合预期。
训练算法：这个过程也就是构造决策树，同样也可以说是决策树学习，就是构造一个决策树的数据结构。
测试算法：使用经验树计算错误率。当错误率达到了可接收范围，这个决策树就可以投放使用了。
使用算法：此步骤可以使用适用于任何监督学习算法，而使用决策树可以更好地理解数据的内在含义。

２）树模型的优缺点

优点
（1）需要准备的数据量不大。
（ 2）算法时间的复杂度是用于训练决策树的数据点的对数。
（3）能够处理数值型和类别型数据。
（ 4）相对对神经网络，解释性比较强。
缺点
有的规则不具备可解释性、抗干扰能力弱、最优决策划分是NP难问题、对数据不均衡类别倾向数据多的类别。

３．集成模型

１）随机森林模型

- ＲＦ工作原理

建立多个决策树并将他们融合起来得到一个更加准确和稳定的模型，是bagging 思想和随机选择特征的结合。随机森林构造了多个决策树，当需要对某个样本进行预测时，统计森林中的每棵树对该样本的预测结果，然后通过投票法从这些预测结果中选出最后的结果。

-随机森林的预测错误率

随机森林的预测错误率取决于以下两点：

森林中任意两棵树之间的相关性，相关性越高，错误率越大
每棵树的分类能力，单棵树的分类能力越强，那么整个森林的分类能力也越强

-随机森林模型的优缺点

优点
（１）准确率高运行起来高效（树之间可以并行训练）
（２）不用降维也可以处理高维特征
（３）给出了度量特征重要性的方法
（４）建树过程中内部使用无偏估计
（５）有很好的处理缺失值的算法
（６）对于类别不平衡数据能够平衡误差
（７）能够度量样本之间的相似性，并基于这种相似性对于样本进行聚类和筛选异常值
（８）提出了一种衡量特征交互性的经验方法(数据中存在冗余特征时能很好的处理）
（９）可以被扩展到无监督学习
（１０）产生的模型可以被应用到其他数据上
缺点
（１）黑盒，不可解释性强，多个随机导致了非常好的效果
（２）在某些噪声较大的分类和回归问题上会过拟合
（３）模型会非常大，越准确意味着越多的数

２）XGBoost模型

Xgboost 的全称是eXtreme Gradient Boosting。

XGBoost算法是采用分步前向加性模型，只不过在每次迭代中生成弱学习器后不再需要计算一个系数，XGBoost 是由 k 个基模型组成的一个加法运算式。
XGBoost算法通过优化结构化损失函数（加入了正则项的损失函数，可以起到降低过拟合的风险）来实现弱学习器的生成，并且XGBoost算法没有采用搜索方法，而是直接利用了损失函数的一阶导数和二阶导数值，并通过预排序、加权分位数等技术来大大提高了算法的性能。

３）LightGBM模型

-LightGBM的优点

（１）更快的训练效率

（２）低内存使用

（３）更高的准确率

（４）支持并行化学习

（５）可处理大规模数据

（６）原生支持类别特征，不需要对类别特征再进行0-1编码这类的

４）Catboost模型

-类别型特征

Catboost引入了两个关键的算法改进——实现了有序提升，排列驱动以代替经典算法和用于处理分类特征的创新算法。这些方法旨在解决prediction shift（普遍存在于梯度提升算法中）。
　　 -Greedy TS
　　 -Holdout TS
　　 -Leave-one-out TS
　　 - Ordered TS

-解决预测偏移

４．模型对比与性能评估

１）常用模型评估方法

1.线性相关系数(皮尔逊相关系数）（用于描述两个变量之间相关性的强弱，系数越大相关性越强）
2.决定系数（用于描述非线性或两个以上自变量的相关关系，也可用于评价模型效果）(R＾２对变量进行线性回归后，评价拟合优度，越大越好，如R＾２=0.8，则表明x对y的影响占比80%以上）
3.混淆矩阵（用于二分类问题模型评估）
4.ROC曲线&AUC面积（对模型整体效力做评估）
5.KS 曲线（用于判别模型的最优划分概率，只看最大的一个）
6.轮廓系数（第二个用于聚类模型有效性判断的方法，第一个是SSE)
7.收益曲线（也是用于寻找最佳阈值）