【机器学习】02 决策树

最新推荐文章于 2024-07-19 16:36:18 发布

懵_9785

最新推荐文章于 2024-07-19 16:36:18 发布

阅读量1k

点赞数

分类专栏：机器学习文章标签： python 机器学习决策树

本文链接：https://blog.csdn.net/weixin_43996614/article/details/124482732

版权

4 篇文章 0 订阅

订阅专栏

一、基本流程

三种停止条件：

信息熵
是度量样本集合“纯度”最常用的一种指标。
假定当前样本集合D中第k类样本所占的比例为 $p_{k}$ ，则D的信息熵定义为 $Ent(D)=-\sum\limits_{k=1}^{|y|}p_{k}\log_{2}{p_{k}}$

$E n t (D)$ 的值越小，则D的纯度越高。

信息增益
离散属性a的取值：{ $a^{1},a^{2}…,a^{V}$ }
$D_{v}$ ：D中在a上取值= $a^{v}$ 的样本集合
以属性a对数据集D进行划分所获得的信息增益为： $Gain(D,a)=Ent(D)-\sum\limits_{k=1}^{V}\frac{|D^{v}|}{|D|}Ent(D^{v})$

利C4.5决策树算法用增益率来选择最优划分属性
增益率：

Gain_ratio

(D,a)=\frac{Gain(D,a)}{IV(a)}

其中

IV(a)=-\sum\limits_{v=1}^{V}log_{2}{\frac{|D^{v}|}{|D|}}

属性a的可能取值数目越多则 $I V (a)$ 的值通常越大。
启发式：先从候选划分属性中找出信息增益高于平均水平的属性，再从中选择增益率最高的。

CART决策树使用基尼指数选择划分属性
基尼值：

Gini(D)=\sum\limits_{k=1}^{|y|}\sum\limits_{k^{'}\neq k}p_{k}p_{k_{'}}=1-\sum\limits_{k=1}^{|y|}p_{k}^2

属性a的基尼指数：

Gini_index

(D,a)=\sum\limits_{v=1}^{V}\frac{|D^{v}|}{|D|}Gini(D^{v})

在候选属性集合中，选取那个使划分后基尼指数最小的属性。

比较：

参考文献：
《机器学习》第四章决策树——周志华

关注