机器学习笔记2：决策树

最新推荐文章于 2024-07-10 14:32:33 发布

xc194

最新推荐文章于 2024-07-10 14:32:33 发布

阅读量214

点赞数

文章标签：机器学习

本文链接：https://blog.csdn.net/xc194/article/details/108170918

版权

参考资料：周志华机器学习书籍和 Datawhale开源资料天池链接

决策树基本流程：
决策树的组成内涵：

决策树的建立流程：

注意区别属性和类别（标签）。
划分选择
如何选择最优的划分属性，决定了每个结点包含的样本的纯度。书中给出了三种划分方法。
2.1 信息增益
信息熵：p_k 表示当前样本集合 D 中第 k 类样本所占比例。k = 1，2，…，|y|。

信息增益：

信息增益越大，使用属性 a 来划分所获得的纯度提升越大。信息增益对可取值数目较多的属性有所偏好。

2.2 增益率
固有值：

增益率：

增益率对可取值数目较少的属性有偏好。使用时，先选出信息增益高于平均水平的，再从中选出增益率大的。
2.3 基尼指数

基尼指数越小，则数据集 D 的纯度越高。
剪枝处理
剪枝处理是决策树对付过拟合的主要手段，主动去掉一些分支。有两种基本策略：预剪枝和后剪枝。
3.1 预剪枝
决策树生成过程中，划分前评估每个结点，若当前结点划分不能带来泛化性能的提升，则停止划分，并将当前结点标记为叶结点。预剪枝导致很多分支未展开，对后续划分有影响，容易欠拟合。
3.2 后剪枝
生成一棵完整的决策树，然后自底向上对非叶结点考察，若将该结点对应的子树替换为叶结点能带来泛化能力的提升，则将该子树替换为叶结点。后剪枝保留了更多分支，泛化能力更好，但是训练时间开销大。
连续值与缺失值
4.1 连续值处理
以上的内容都是针对离散属性来说的，实际上会遇到连续值类型的属性。对于连续属性，可取值数目不再有限，需要采用离散化方法，最简单的策略是二分法，选择划分点 t 将数据集分为在 a 属性上值不大于 t 的样本和大于 t 的样本。事先先把属性集合从小到大排序，t 的取值集合为：

根据信息增益最大标准，选择最优的 t 值，使划分结果最好。

4.2 缺失值处理
缺失值指样本的某些属性值缺失。在划分属性时，针对某一属性，对除去有缺失值样本后剩余的子集进行信息增益计算，然后乘以无缺失值的样本占全部样本的比例，得到全部样本的集合的信息增益。
多变量决策树
决策树中，每个属性都可以看作一个坐标轴，d个属性即对应d维空间，一个样本就对应空间中一个点。决策树的分类边界是多干个分段，每段对应一个属性取值，且都与一个轴平行。这样的话，模型容易变复杂。
多变量决策树实现了斜划分边界，简化了模型。非叶结点不再是仅仅对应某个属性，而是对属性的线性组合测试，划分最优属性变为建立一个合适的线性分类器。

决策树分类方法在库 sklearn 中已经封装好，可以直接使用。

xc194

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习笔记2：决策树

参考资料：周志华机器学习书籍和 Datawhale开源资料天池链接决策树基本流程：决策树的组成内涵：决策树的建立流程：注意区别属性和类别（标签）。划分选择如何选择最优的划分属性，决定了每个结点包含的样本的纯度。书中给出了三种划分方法。2.1 信息增益信息熵：pk 表示当前样本集合 D 中第 k 类样本所占比例。k = 1，2，…，|y|。信息增益：信息增益越大，使用属性 a 来划分所获得的纯度提升越大。信息增益对可取值数目较多的属性有所偏好。2.2 增益率固有值：
复制链接

扫一扫