金融风控训练营-Task04建模与调参学习笔记

最新推荐文章于 2021-12-13 09:25:49 发布

柒彩黑色的米

最新推荐文章于 2021-12-13 09:25:49 发布

阅读量155

点赞数

本文链接：https://blog.csdn.net/weixin_49247305/article/details/116266370

版权

本学习笔记为阿里天池龙珠计划金融风控训练营的学习内容，学习链接为https://tianchi.aliyun.com/specials/activity/promotion/aicampfr?spm=5176.22758685.J_6770933040.3.6f103da1BKXXWZ

一、学习知识点概括

逻辑回归模型
树模型
集成模型
模型调参

逻辑回归模型¶

https://blog.csdn.net/han_xiaoyang/article/details/49123419

决策树模型

https://blog.csdn.net/c406495762/article/details/76262487

GBDT模型

https://zhuanlan.zhihu.com/p/45145899

XGBoost模型

https://blog.csdn.net/wuzhongqiang/article/details/104854890

LightGBM模型

https://blog.csdn.net/wuzhongqiang/article/details/105350579

Catboost模型

https://mp.weixin.qq.com/s/xloTLr5NJBgBspMQtxPoFA

二、学习内容

1 逻辑回归模型-分类机器学习算法

现实生活的分类问题的数据较为复杂，仅仅借助线性回归+阙值的方式，已经很难完成一个鲁棒性很好的分类器
线性回归的预测函数是Y=WTX，那么逻辑回归的输出Y= g(WTX)，
θTX =0是一个决策边界，当它大于0（预估y=1）或小于0(预估y=0)时，逻辑回归模型分别预测不同的分类结果。根据此拟合出判定边界，从而把不同的样本点分隔开来
代价函数（一种衡量我们在这组参数下预估的结果和实际结果差距的函数）与梯度下降（如何求合适参数θ）

2 树模型

2.1决策树模型

ID3算法：在决策树各个结点上对应信息增益准则选择特征，递归地构建决策树。

2.2GBDT模型（集成模型，有很多个基模型线性相加）

CART树是二分树；GDBT模型是很多CART树线性相加，在不断加入新的树中降低残差

3 集成模型

Boosting流派：各分类器之间有依赖关系，如GBDT

Bagging流派：各分类器之间没有依赖关系，如随机森林

3.1XGBoost模型

通过加法进行训练和预排序

3.2LightGBM模型

训练速度快，更低的内存使用

3.2.1Gross（单边梯度抽样算法）

Gross可以减少样本的数量，排除大部分权重小的样本。而EFB可以减少特征的数量
GBDT中每个数据会有不同的梯度值，剃度小的样本，训练误差比较少；梯度小的样本对降低残差的效果不大
Gross保留了梯度大的样本，并对梯度小的样本进行随机抽样，在计算增益是为梯度小的样本引入一个常数进行平衡
思路：将要进行分裂的特征按照绝对值大小降序保存；拿到前a%梯度大的样本，剩下的b%乘上（1-a）/b来放大梯度小的样本的权重。算法将注意力放在训练不足的样本

3.2.2EFB（互斥特征捆绑算法）

特征捆绑：将不互相独立的特征用一条边连起来，按照节点的度对特征降序排序，将特征加入到特征簇中的矛盾数布草过某一阙值，就捆绑在一起
确定特征值：原始特征能从合并的特征中分离。如要区分A（0,10）和B（0,20），可以将B改为（10,20）

3.2.3LightGBM的生长策略

XGBoost在树的生成过程中采用Level-wise的增长策略，遍历一次数据可以同时分裂同一层的叶子，但低效
Leaf-wise 从当前叶子，找到分裂增益最大的叶子，然后进行分裂，缺点是可能会产生过拟合

3.2.4LightGBM的工程优化

LightGBM支持类别特征
支持高效并行（特征并行，数据并行，投票并行）
Cache命中率优化

3.3CatBoost模型-克服梯度偏差

在第一阶段采用梯度步长的无偏估计，第二阶段在树结构固定后计算叶子结点的值i采用排序提升的方式减轻梯度估计的偏差

4模型调参

4.1贪心调参方法

先使用当前对模型影响最大的参数进行调优，达到当前参数下的模型最优化，再使用对模型影响次之的参数进行调优，如此下去，直到所有的参数调整完毕。

4.2网格调参方法

用于进行网格搜索（只适合小数据集），只需要把模型的参数输进去，就能给出最优化的结果和参数。

4.3贝叶斯调参方法

考虑了上一次参数的信息，从而更好的调整当前的参数。

定义优化函数(rf_cv）
建立模型
定义待优化的参数
得到优化结果，并返回要优化的分数指标

三、学习问题与解答

在进行代码实例练习的时候，出现最多的错误便是“name XXX is not defined”遇到的问题最多的情况是没有导入相应的包或没有定义变量网上查找资料的时候发现了这个https://www.cnblogs.com/zyh19980816/p/11942874.html

Parameter values for parameter (max_depth) need to be a sequence.具体原因：https://blog.csdn.net/qq_42738639/article/details/92799440

四、学习思考与总结

最近在想这个对我来说是不是太难了，因为慢慢的有种一知半解的感觉，没有深入的思考其中的原理，总感觉有很多要学，如果能够系统的学习，而且学习时间久一点，也许就会变得不一样。但是只要想到认真学还是能学到一些的，就不会想这些乱七八糟的事了。这次学习的时候还没有能够将全部知识进行吸收，一旦遇到数学公式马上就晕晕的，后续要继续努力啊！

柒彩黑色的米

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
金融风控训练营-Task04建模与调参学习笔记

本学习笔记为阿里天池龙珠计划金融风控训练营的学习内容，学习链接为https://tianchi.aliyun.com/specials/activity/promotion/aicampfr?spm=5176.22758685.J_6770933040.3.6f103da1BKXXWZ一、学习知识点概括逻辑回归模型树模型集成模型模型对比与性能评估模型调参二、学习内容1 逻辑回归模型-分类机器学习算法1.1线性回归2 树模型3 集成模型4 模型对比与性能评估5
复制链接

扫一扫