主要内容

随机森林决策树的问题
是否可以施加一定权重,让随机森林中决策树之间能有一定的有益影响;摈弃原来仅有的随机过程

解决方法:提升—对于弱分类器才用提升—弱分类器就是分类效果较差
提升算法

(选择负梯度方向的基函数来逼近损失函数最小值)


更新提升算法的方式
学习率一般采用–自适应学习率
算法例子–XGboost
①考虑二阶导信息—XGBoost;相较于GBDT有更快的训练集收敛效率,确定权值及目标值计算

这里的权值,就是决策树的预测值
正则项用于处理模型的复杂度
带入简化二阶导的目标函数

最终可以计算出目标函数的值
例子:计算出当前决策树的损失值

②确定决策树结构
损失值越来越小,且信息增益最大


通过权值的计算,计算目标值—最后确定决策树整体结构
加权值提升算法Adaboost
初始在未给定权值情况下默认权值相等

通过误差率计算出权值系数—误差率小,权值就应该大;0.5是个零界点(对于二分类,如果误差达到0.5则没有意义)
如果分类做错了,则下一次分类的权值就较大,Y*G在分类错误情况为-1,α为正,括号里面为正;所以做错了,下一次给的权值升高,做对了,下一次权值降低

例子





(不断重复,调整权值,降低误差直至全部分正确)
前向分布算法




本文探讨如何在随机森林中引入权重提升算法,如XGBoost,利用正则项控制复杂度,并通过自适应学习率优化决策树。重点讲解了如何通过误差率调整权值,以Adaboost为例,展示如何通过不断迭代降低分类误差。XGBoost利用二阶导信息加速训练,最终确定决策树结构。

被折叠的 条评论
为什么被折叠?



