西瓜书学习笔记——决策树

最新推荐文章于 2024-07-01 20:36:42 发布

milaiko

最新推荐文章于 2024-07-01 20:36:42 发布

阅读量232

点赞数

分类专栏：机器学习基础文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_45407700/article/details/108202606

版权

机器学习基础专栏收录该内容

2 篇文章 0 订阅

订阅专栏

决策树

决策树结构

根节点——样本全集
内部节点——属性测试
叶节点——决策结果

决策树学习的目的就是为了产生一颗泛化能力强，即处理未见示例能力强的决策树。

操作步骤

输入：

训练集 $D={(x_1,y_1),(x_2,y_2),...,(x_m,y_m)}$

属性集 $A = {a_1,a_2,...,a_d}$

过程

生成结点node
if D中样本全属于同一类别C，则
1. 将node标记为C类叶结点，return
if A = 空集 or D中样本在A上取值相同则
1. 将node标记为叶结点，将类别标记为D中样本数最多的类 return
从A中选择最优划分属性 $a_*$
for $a_*$ 的每一个值 $a_*^v$
1. 为node生成一个分支；令 $D_v$ 表示 $D$ 中在 $a_*$ 上取值为 $a_*^v$ 的样本子集
2. if $D_v$ 为空则
  1. 将分支结点标记为叶结点，其类别标记为D中样本最多的类；return
3. else
  1. 以 $TreeGenerate(D_v,A/{a_*})$ 为分支结点
end for

在决策树算法中，又三种情形会return

当前结点包含的样本全属于同一类别，无需划分
当前属性集为空，或是所有样本在所有属性上的取值相同，无法划分
当前结点包含的样本集合为空，不能划分

在第2种情况下，当前结点标记为叶结点

在第3种情况下，也同样把当前结点标记为叶结点

但是其中是有区别的，第2种是将其类别设定为该结点所含样本最多的类别，第3种是将其类别设定为其父结点所含样本最多的类别。

划分

我们知道其中算法最重要的部分就是

从A中选择最优划分属性 $a_*$

即如何选择最优划分属性

信息熵

假定当前样本集合D种第k类样本所占比例为 $p_k(k=1,2,..|y|)$ ，则D的信息熵定义

$-\sum_{k=1}^{|y|}p_klog_2p_k$

信息增益

离散属性a有V和可能的取值 ${a^1,a^2,...,a^V}$ ，如果使用a来对样本集划分，则会产生v个分支结点，其中第v个分支结点包含了D种所有在属性a上取值为 $a^v$ 的样本，即为 $D^v$ 。

以分辨鱼和哺乳动物为例，假设有属性集a = {有肺，卵生，会游}

那么就会根据这些属性划分数据集

其中会游可能就是排在第一的划分结点，然后接着是其他的。那么怎么判定那个是最重要的划分结点呢？

我们可以计算出根据不同的结点所包含的样本计算其中的信息熵，考虑到不同的分支结点所包含的样本数也不同，则给分支结点赋予权重 $D^v|/|D|$ ，即样本数越多的分支结点的影响越大。

从而根据属性a对样本集D计算信息增益
$Ent(D)-\sum_{v=1}^V\frac{|D^v|}{|D|}Ent(D^v)$
Gain越大，则 $D^v$ 的信息熵越小，则说明用属性 $a^v$ 划分的“纯度提升”越大。

ID3算法就是比较各个属性划分的信息增益的大小来选择划分属性

增益率

以西瓜书举的例子来说明
在这里插入图片描述
如果使用编号来作为一个候选划分属性，可以猜测到用编号作为属性的得到的信息增益应该是最大的，因为每个分支结点只包含一个样本，这样，分支结点的纯度已达最大，但是这样的决策树没有泛化能力，无法对新样本进行有效预测。

实际上，信息增益准则对可取值数目较多的属性有所偏好，为减少这种偏好带来的不利影响。我们使用增益率来选择最优划分属性。

增益率定义为
$\frac{Gain{D,a}}{IV(a)}\\ 其中 IV(a) = -\sum_{v=1}^V \frac{|D^v|}{|D|}log_2\frac{|D^v|}{|D|}$
$I V (a)$ 称为属性a的固有值，属性的取值数目越多，固有值越大。

但是，增益率准则对可取值数小的有所偏好（嗯，这不是又绕回来了嘛）所以C4.5算法不是直接用增益率来选择属性。而是先从其中找信息增益高于平均水平的属性，然后再从中选择增益率高的。

基尼指数

CART决策树就是直接使用“基尼指数”来选择化分属性。
$\sum_{k=1}^{|y|}\sum_{k^{'}!=k}p_kp_{k^{'}}\\ = 1-\sum_{k=1}^{|y|}p_k^2$
Gini(D)直接反映了从数据集D中随机抽取两个样本，其类别标记为不一样的概率。如果基尼指数越小，则纯度越高。