金融风控训练营-Task04建模与调参学习笔记

本学习笔记为阿里天池龙珠计划金融风控训练营的学习内容,学习链接为https://tianchi.aliyun.com/specials/activity/promotion/aicampfr?spm=5176.22758685.J_6770933040.3.6f103da1BKXXWZ

一、学习知识点概括

  1. 逻辑回归模型
  2. 树模型
  3. 集成模型
  4. 模型调参

逻辑回归模型

https://blog.csdn.net/han_xiaoyang/article/details/49123419

决策树模型

https://blog.csdn.net/c406495762/article/details/76262487

GBDT模型

https://zhuanlan.zhihu.com/p/45145899

XGBoost模型

https://blog.csdn.net/wuzhongqiang/article/details/104854890

 LightGBM模型

https://blog.csdn.net/wuzhongqiang/article/details/105350579

 Catboost模型

https://mp.weixin.qq.com/s/xloTLr5NJBgBspMQtxPoFA

二、学习内容

1 逻辑回归模型-分类机器学习算法

  • 现实生活的分类问题的数据较为复杂,仅仅借助线性回归+阙值的方式,已经很难完成一个鲁棒性很好的分类器
  • 线性回归的预测函数是Y=WTX,那么逻辑回归的输出Y= g(WTX),
  • θTX =0是一个决策边界,当它大于0(预估y=1)或小于0(预估y=0)时,逻辑回归模型分别预测不同的分类结果。根据此拟合出判定边界,从而把不同的样本点分隔开来
  • 代价函数(一种衡量我们在这组参数下预估的结果和实际结果差距的函数)与梯度下降(如何求合适参数θ)

2 树模型

2.1决策树模型

ID3算法:在决策树各个结点上对应信息增益准则选择特征,递归地构建决策树。

2.2GBDT模型(集成模型,有很多个基模型线性相加)

CART树是二分树;GDBT模型是很多CART树线性相加,在不断加入新的树中降低残差

3 集成模型

Boosting流派:各分类器之间有依赖关系,如GBDT

Bagging流派:各分类器之间没有依赖关系,如随机森林

3.1XGBoost模型

通过加法进行训练和预排序

3.2LightGBM模型

  • 训练速度快,更低的内存使用

3.2.1Gross(单边梯度抽样算法)

  1. Gross可以减少样本的数量,排除大部分权重小的样本。而EFB可以减少特征的数量
  2. GBDT中每个数据会有不同的梯度值,剃度小的样本,训练误差比较少;梯度小的样本对降低残差的效果不大
  3. Gross保留了梯度大的样本,并对梯度小的样本进行随机抽样,在计算增益是为梯度小的样本引入一个常数进行平衡
  4. 思路:将要进行分裂的特征按照绝对值大小降序保存;拿到前a%梯度大的样本,剩下的b%乘上(1-a)/b来放大梯度小的样本的权重。算法将注意力放在训练不足的样本

3.2.2EFB(互斥特征捆绑算法)

  1. 特征捆绑:将不互相独立的特征用一条边连起来,按照节点的度对特征降序排序,将特征加入到特征簇中的矛盾数布草过某一阙值,就捆绑在一起
  2. 确定特征值:原始特征能从合并的特征中分离。如要区分A(0,10)和B(0,20),可以将B改为(10,20)

3.2.3LightGBM的生长策略

  • XGBoost在树的生成过程中采用Level-wise的增长策略,遍历一次数据可以同时分裂同一层的叶子,但低效
  • Leaf-wise 从当前叶子,找到分裂增益最大的叶子,然后进行分裂,缺点是可能会产生过拟合

3.2.4LightGBM的工程优化

  • LightGBM支持类别特征
  • 支持高效并行(特征并行,数据并行,投票并行)
  • Cache命中率优化

3.3CatBoost模型-克服梯度偏差

在第一阶段采用梯度步长的无偏估计,第二阶段在树结构固定后计算叶子结点的值i采用排序提升的方式减轻梯度估计的偏差

4模型调参

4.1贪心调参方法

先使用当前对模型影响最大的参数进行调优,达到当前参数下的模型最优化,再使用对模型影响次之的参数进行调优,如此下去,直到所有的参数调整完毕。

4.2网格调参方法

用于进行网格搜索(只适合小数据集),只需要把模型的参数输进去,就能给出最优化的结果和参数。

4.3贝叶斯调参方法

考虑了上一次参数的信息,从而更好的调整当前的参数。

  • 定义优化函数(rf_cv)
  • 建立模型
  • 定义待优化的参数
  • 得到优化结果,并返回要优化的分数指标

三、学习问题与解答

四、学习思考与总结

最近在想 这个对我来说是不是太难了,因为慢慢的有种一知半解的感觉,没有深入的思考其中的原理,总感觉有很多要学,如果能够系统的学习,而且学习时间久一点,也许就会变得不一样。但是只要想到认真学还是能学到一些的,就不会想这些乱七八糟的事了。这次学习的时候还没有能够将全部知识进行吸收,一旦遇到数学公式马上就晕晕的,后续要继续努力啊!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值