决策树、随机森林之四,关于提升(一)

本文介绍了提升算法的概念,它是通过每一步生成弱预测模型(如决策树)并加权累加来形成强模型。特别是讨论了梯度提升,它依据损失函数的梯度方向选择基函数,以逼近局部极小值。内容涵盖提升的理论意义、损失函数、以及梯度近似方法。
摘要由CSDN通过智能技术生成

关于提升

之前,关于随机森林的做法是:通过有放回的重采样生成出若干颗决策树\bigl(\begin{smallmatrix} \\ T_{1} \\ T_{2} \\ \cdot \cdot \cdot \\ T_{m} \end{smallmatrix}\bigr),从中取一个平均得到森林,这个randomforest实际是对这m颗树取平均得到的,它没有哪棵树更重要哪颗树不重要这种说法。

那么能不能换一种思路,给出这些树的权值,比如\bigl(\begin{smallmatrix} \\ {\alpha_{1} T_{1}} \\ {\alpha_{2}T_{2}} \\ \cdot \cdot \cdot \\ {\alpha_{m}T_{m}} \end{smallmatrix}\bigr),并不是简单的取平均而是加权,我们把这样一种方式叫做提升。用图来说明:

提升的概念

提升是一个机器学习技术,可以用于回归和分类,它每一步产生一个弱预测模型(如决策树),并加权累加到模型中;如果每一步的弱预测模型生成都是依据损失函数的梯度方向,则称之为梯度提升( Gradient boosting)

梯度提升算法首先给定一个目标损失函数,它的定义域是所有可行的弱函数集合(基函数);提升算法通过迭代的选择一个负梯度方向上的基函数来逐渐逼近局部极小值。这种在函数域的梯度提升观点对机器学习的很多领域有深刻影响。

提升的理论意义:如果一个问题存在弱分类器,则可以通过提升的办法得到强分类器。(所谓的弱分类器可能就是准确率50%多一丢丢。如果存在弱分类器,那么一定存在对应的强分类器。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值