吃瓜任务3

最新推荐文章于 2024-05-06 20:59:34 发布

侍伟

最新推荐文章于 2024-05-06 20:59:34 发布

阅读量823

点赞数

文章标签：决策树机器学习

本文链接：https://blog.csdn.net/weixin_43595036/article/details/122552479

版权

决策树算法原理

从逻辑角度，一堆if-else语句的组合
从几何角度，根据某种和准则划分特征空间
最终目的：将样本越分越纯

将样本类别标记 $y$ 视作随机变量，各个类别在样本集合 $D$ 中的占比 $p_k(k=1,2,\dots,|y|)$ 视作各个类别取值的概率，则样本集合 $D$ （随机变量 $y$ ）的信息熵（底数b取2）为：
$Ent(D)=-\sum_{k=1}^{|y|} p_k\log_{2}{p_k}$
此时的信息熵所代表的不确定性可以转换理解为集合内样本的纯度。

信息增益：在已知属性（特征） $a$ 的取值后 $y$ 的不确定性减少量，也即纯度的提升：
$Gain(D,a)=Ent(D)-\sum_{v=1}^{V} \frac{|D^v|}{|D|}Ent(D^v)$

ID3决策树： 以信息增益为准则来选择划分属性的决策树
$a_*=\arg\max_{a\in A}Gain(D,a)$

C4.5决策树：
信息增益准则对可能取值数目较多的属性有所偏好，为了减少这种偏好可能带来的不利影响，C4.5决策树选择使用“增益率”代替“信息增益”，增益率定义为：
$Gain\_ratio(D,a)=\frac{Gain(D,a)}{IV(a)}$
其中
$IV(a)=-\sum_{v=1}^{V} \frac{|D^v|}{|D|} \log_{2}{\frac{|D^v|}{|D|}}$
称为属性 $a$ 的固有值。

但是，增益率对可能取值数目较少的属性有所偏好。

因此，C4.5决策树并未完全使用增益率代替信息增益，而是采用一种启发式的方法：先选出信息增益高于平均水平的属性，然后再从中选择增益率最高的。

CART决策树：

基尼值：从样本集合 $D$ 中随机抽取两个样本，其类别标记不一致的概率。
$\begin{aligned} Gini(D)&=\sum_{k=1}^{|y|} p_k(1-p_k)\\ &=1-\sum_{k=1}^{|y|}p_k^2 \end{aligned}$

属性 $a$ 的基尼指数：
$Gini\_index(D,a)=\sum_{v=1}^{V} \frac{|D^v|}{|D|} Gini(D^v)$

CART决策树选择基尼系数最小的属性作为最优划分属性。
$a_*=\arg\min_{a\in A}Gini\_index(D,a)$

CART决策树的构造算法：

首先对每个属性 $a$ 的每个可能取值 $v$ ，将数据集 $D$ 分为 $a = v$ 和 $a \neq = v$ 两部分来计算基尼指数；
然后选择基尼指数最小的属性及其对应取值作为最优划分属性和最优划分点；
最后重复以上步骤，直至满足停止条件。

参考文献：

《机器学习》周志华著清华大学出版社
Datawhale开源学习课程https://datawhale.feishu.cn/docs/doccndJC2sbSfdziNcahCYCx70W

侍伟

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
吃瓜任务3

决策树算法原理从逻辑角度，一堆if-else语句的组合从几何角度，根据某种和准则划分特征空间最终目的：将样本越分越纯将样本类别标记yyy视作随机变量，各个类别在样本集合DDD中的占比pk(k=1,2,…,∣y∣)p_k(k=1,2,\dots,|y|)pk(k=1,2,…,∣y∣)视作各个类别取值的概率，则样本集合DDD（随机变量yyy）的信息熵（底数b取2）为：Ent(D)=−∑k=1∣y∣pklog⁡2pkEnt(D)=-\sum_{k=1}^{|y|} p_k\log_{2}{p_k}
复制链接

扫一扫