目录
2.1梯度提升算法推导(Gradient Boosting)
2.2 考虑使用二阶信息(eXtreme Gradient Boosting)
1. Boosting的引入
分析随机森林的特点:随机森林的决策树分别采样建立,相对独立。
思考:
假定当前一定得到了m-1颗决策树,是否可以通过现有样本和决策树的信息,对第m颗决策树的建立产生有益的影响呢?
各个决策树组成随机森林后,最后的投票过程可否在建立决策树时即确定?
答案:Boosting
Boosting——由弱分类器得到强分类器
提升是一个机器学习技术,可用于回归和分类问题,它每一步产生一个弱预测模型(如决策 树),并加权累加到总模型中。
提升的理论意义:如果一个问题存在弱分类器,则可以通过提升的办法得到强分类器。
2. Gradient Boosting 梯度提升
- 训练一个模型m1,产生错误e1;
- 针对e1训练第二个模型m2,产生错误e2;
- 针对e2训练第三个模型m3,产生错误e3;
- 最终预测结果是:m1+m2+m3+……
若每一步的弱预测模型生成都是依据损失函数的梯度方向,则称之为梯度提升(Gradient boosting)。
梯度提升算法首先给定一个目标损失函数,它的定义域是所有可行的弱函数集合(基函数);提升算法通过迭代的选择一个负梯度方向上的基函数来逐步逼近局部极小值。这种在函数域的梯度提升观点对机器学习的很多领域有深刻影响。
2.1梯度提升算法推导(Gradient Boosting)
自适应的学习率
回溯线性搜索学习率
2.1.1梯度提升决策树GBDT
PS:GBDT也可以用来做特征选择,怎样做, 做特征选择的原理是什么?
2.2 考虑使用二阶信息(eXtreme Gradient Boosting)
2.2.1 基模型为决策树的一个例子
使用决策树对样本做分类(回归),是从根结点到叶节点的细化过程;落在相同叶节点的样本的预测值是相同的。
假定某决策树的叶节点数目为T,每个叶节点的权值为w=(w1, w2, w3, wT), 决策树的学习过程,就是构造如何使用特征得到划分,从而得到这些权值的过程。(一个决策树的核心即:“树结构”和“叶权值”)
样本x落在叶节点q中,定义f为:
2.2.2 小结
3. Adaboost
上一次未训练到的点的权重在下一次训练时就会大一些,(即每个子模型点和点之间的权重不一样)
对于分类问题,最终,综合所有的子模型进行投票,形成整体的决策结果。
对于回归问题,也是综合所有子模型的结果,取平均或是其他运算,最终得到整体的结果。
3.1 AdaBoost实现原理
3.2 AdaBoost举例
3.3 AdaBoost为什么最后会收敛?
3.4 AdaBoost总结
4. 思考问题
5. 参考文献
6 附录
6.1 Adaboosts算法解释
6.2 偏差与方差
6.3 中位数是绝对最小最优解的证明