机器学习第四章

asdaasddsa

已于 2024-07-13 17:54:07 修改

阅读量675

点赞数 10

文章标签：机器学习人工智能

于 2024-07-09 17:17:16 首次发布

本文链接：https://blog.csdn.net/zxsdss/article/details/140277430

版权

一、流程

决策树是一种常见的机器学习的方法，它是基于树结构来进行决策的。决策过程的最终结论对应了所希望的判定结果，过程中提出的每个判定问题是对某个属性的测试，测试的结果或导出的最终结论，或导出进一步的判定问题，其考虑范围在上次决策结果的限定范围内。

一颗决策树包括一个根结点、若干个内部结点和若干个叶结点；叶结点对于决策结果，其他每个节点对应属性测试，根结点包含样本全集。决策树学习的目的是为了产生一颗泛化能力强，即处理未见示例能力强的决策树，基本流程遵循分而治之策略。

决策树的生成是一个递归过程，有三种情形会导致递归返回（1）当前结点包含的样本全属于同一类别，无需划分。（2）当前属性集为空，或所有样本在所有属性上取值相同，无法划分。（3）当前结点包含的样本集为空，不能划分。

二、划分选择

随着划分的进行，我们希望决策树的分支结点所包含的样本尽可能属于同一类别，即结点的纯度越来越高。

1.信息增熵

信息熵是度量样本集合纯度最常用的一种指标。假定样本集合D中第k类样本所占比例为p，那么D的信息熵定义为 $Ent(D)=-\sum_{k=1}^{|y|}p_klog_2p_k$ 。其值越小，D的纯度越高。样本数越多的分支结点的影响越大，可以计算出用属性a对样本集进行划分所获得的信息增熵为：

$Gain(D,a)=Ent(D)-\sum_{v=1}^{V}\frac{|D^v|}{|D|}Ent(D^v)$

信息增益越大，意味着使用属性a来进行划分所获得的纯度提升越大。ID3决策树学习算法就是以信息增益为准则来选择划分属性的。

2.增益率

信息增益准则对可取值数目较多的属性有所偏好，为减少这种偏好带来的不利影响，C4.5决策树算法不直接使用信息增益，而是使用增益率来选择最有划分属性，其定义为：

IV(a)是属性a的固有值，属性a可能取值数目越多， IV(a)的值越大。C4.5使用了一个启发式：先从候选划分属性中找出信息增益高于平均水平的属性，再从中选择增益率最高的。

3.基尼指数

CART决策树使用基尼指数来选择划分属性，Gini(D)反映了从数据集D中随机抽取两个样本，其类别标记不一致的概率，其值越小，数据集D纯度越高。

三、剪枝处理

剪枝是决策树学习算法对付过拟合的主要手段，其基本策略有预剪枝和后剪枝。

预剪枝是在决策树生成过程中，对每个结点在划分前先进行估计，若当前结点的划分不能带来决策树泛化性能提升，则停止划分并将当前结点标记为叶结点；

后剪枝则是先从训练集生成一棵完整的决策树，然后自底向上地对非叶结点进行考察，若将该结点对应的子树替换为叶结点能带来决策树泛化性能提升，则将该子树替换为叶结点。

可以使用前面所讲的性能评估的方法来检测决策树泛化性能是否提升。

1.预剪枝

预剪枝使得决策树的很多分支都没有展开，降低了过拟合的风险，也显著减少了决策树的训练时间开销和测试时间开销。预剪枝基于贪心本质禁止一些分支的展开，带来了欠拟合的风险。

2.后剪枝

后剪枝决策树会比预剪枝决策树保留更多的分支，其欠拟合风险很小，泛化性能由于预剪枝决策树。但其是自底向上对树中的每个结点进行考察的，其训练时间开销比未剪枝决策树和预剪枝决策树都大很多。

四、连续与缺失值

1.连续值处理

由于连续属性的可取值数目不是有限的，所以不能根据连续属性的可取值对结点进行划分，可采用连续属性离散化技术。最简单的策略是二分法对连续属性进行处理，即C4.5决策树中的技术。

给定样本集D的连续属性a，将a的中位点作为候选划分点，然后像离散属性值一样来进行考察。可得信息增熵表达式为：

连续属性与离散属性不同，若当前结点划分属性为连续属性，那么该属性还可以作为其后代结点的划分属性。

2.缺失值处理

不完整样本指的是样本的某些属性缺失。尤其在属性值较多的情况下，往往会有大量样本出现缺失值。想要使用有缺失属性的样例来进行学习，需要解决如下两个问题：(1) 如何在属性值缺失的情况进行划分属性选择 (2) 给定划分属性，若样本在该属性上的值缺失，如何对样本进行划分

给定训练集D和属性a，令 $\tilde{D}$ 表示D中属性a上没有缺失值的样本子集，其中对于问题1可根据 $\tilde{D}$ 来判断属性a的优劣。对于问题2可以让同一个样本以不同的概率划入到不同的子结点去。

五、多变量决策树

如果把每个属性视为坐标空间中的一个坐标轴，则d个属性描述的样本对应了d维空间中的一个数据点，对样本分类就是在坐标空间中寻找不同类样本之间的分类边界。决策树形成的边界有轴平衡的特点。

多变量决策树是实现用斜的划分边界甚至更复杂划分的决策树。在实现斜划分的多变量决策树中，非叶结点不再是仅对某个属性，而是对属性的线性组合进行测试。在其学习过程中，不是为每个非叶结点寻找一个最优划分属性，而是试图建立一个合适的线性分类器。

决策树算法最出名的是ID3和CART。

总结

决策树是一种基本的分类与回归方法，它通过树状结构将特征空间划分为不同的类别区域或回归值。它的模型很直观并且易于我们去理解，其并不需要复杂的参数设置。广泛的应用于我们生活中的各个方面，比如医疗诊断和信誉评分等方面。