通过源码学算法--AdaBoost: CART插播

最新推荐文章于 2020-07-12 04:58:06 发布

windtalkersm

最新推荐文章于 2020-07-12 04:58:06 发布

阅读量1.4k

点赞数

分类专栏：算法备忘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/windtalkersm/article/details/8740981

版权

算法备忘专栏收录该内容

34 篇文章 1 订阅

订阅专栏

1. 简介

CART(Classification and Regression Tree)是一个采用二分法递归划分生成的二叉树。粗略的讲，分类结果是离散的就是分类，是连续的实数就是回归树。

2. 特点

2.1 优点

本质上是无参估计（non-parametric)。就是不管待估计的参数是来自什么神奇古怪的空间，来者不拒。至于分类结果如何，呃，那是另一回事

可以处理输入变量不全的情况（miss variables）
相对与一些其他机器学习的算法，CART相对比较automatic
简单，易于理解。对非技术人员也很容易解释，同时又有着成熟的理论支持

2.2 缺点

（从 http://blog.163.com/huai_jing@126/blog/static/171861983201274102921423/ copy来）

有较高的方差，数据较小的变化会导致完全不同的分裂。Bagging通过对许多树求平均来降低方差
预测面缺乏光滑性，这点主要影响回归的效果，改进的方法为：MARS（多元自适应回归样条）

3. 算法步骤

一般可分为4大步：tree building, stop tree building, tree pruning and optimal tree selection

3.1 树的生成（tree building）

这一步有三个要点：

exhaustive search of all possibilities。所以上面说对要待检测空间不需要做任何假设，用的是最古老的笨办法！
划分规则：显然每一种possibility都可以导致一种分类，自然需要一个规则来选择最佳划分。常见的准则有“误分类不纯度”、“Gini不纯度”、“熵不纯度”，在上面的链接可以找到相应公式
节点分类：因为每个节点都有成为叶节点(leaf)的可能，所以必须在划分的同时对每个节点分类。分类的方法可以用当前节点中出现最多的类别，也可以参考当前节点的分类错误或者其他更复杂的方法

3.2 终结分类

停止生长的原则很简单：分到不能再分为止。。。矫情的人还是可以列出至少三种可能：

每个叶节点都只有一个输入样本了
根据选定的规则，不管怎么分错误率都一样了
人为限定了树的最大层数(level)

3.3 剪枝（pruning）

显然上面得到的树是完全over-fitting到输入数据集上的，是不能用的。

3.4 选取最佳树形

理想情况下是有足够多的数据可以分成训练和测试(test)，直到找到对所有数据分类最佳的树形。

根据现实总是残酷的原理，我们一般找不到那么多数据。所以经常用交叉验证(Cross Validation)的方式来“模拟”理想状况

4. 总结

说起来，这个CART本身就包含很多内容。在AdaBoost里，只是比较常见的用CART来做其基本的弱分类器。既然是要求只需要slight better than random guessing，那也就不需要上面提到的完整的步骤。比如这个GML的包里就直接设定最大层数为3，其他什么pruning, optimal selection, cross-validation都没有用到。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。