决策树 - Decision Tree

最新推荐文章于 2024-08-12 18:10:44 发布

Justin-G

最新推荐文章于 2024-08-12 18:10:44 发布

阅读量134

点赞数

分类专栏：机器学习文章标签： ML 算法人工智能

本文链接：https://blog.csdn.net/weixin_43930330/article/details/89111822

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

决策树 - Decision Tree

按照树的类型：

分类树
回归树

按照树的构建：

信息增益–ID3
信息增益率–C4.5
基尼系数–CART

决策树是什么，定义？

使用树形结构将数据进行分类，每个内部节点对应一个输入属性，子节点代表父节点属性的可能取值，叶子节点对应一个预测结果。

总体流程
1、自根至叶的递归过程；
2、在每个中间结点寻找一个“划分”（split or test）属性。
决策树的三种停止生长条件：
1、当前节点包含的样本全部属于同类别；（例如：在相亲中，此次的样本，都是高的人）
2、当前属性集为空，或是所有样本在所有属性上取值相同，无法划分；（例如：相亲中，富的和不富的都见面）
3、当前节点包含的样本集合为空，不能划分。（例如：相亲中，没有帅的人）

决策树的三种算法

在解释三种算法之前，先解释一个概念——熵。

信息熵（entropy）是度量样本集合“纯度”的一种指标，也就是样本中混乱程度。假定当前样本集合D中的第k类样本所占集合的比例为P(k) ,则D的信息熵定义为：

$-\sum_{k=1}^{|y|}p_klog_2P_k$

其中Ent(D)的值越小，则D的纯度越高。
约定P = 0 ， Plog2§ = 0 。 Ent(D) 的最小值为 0 ，最大值为log2(|y|)。

ID3 --信息增益(information gain)

离散属性a的取值{a1,a2,a3,…,av}
Dv: D中在a上的取值 = av的样本集合

对属性进行信息熵计算，找到信息增益最大的那个属性(也就是使混乱度降低了的属性），作为节点。

以属性a对数据集D 进行划分所得到的信息增益为：

$\sum_{v=1}^V\frac{|D^v|}{|D|}Ent(D^v)$

D^v 为 D在属性ai上的集合

编号	色泽	根蒂	敲声	纹理	脐部	触感	好瓜
1	青绿	蜷缩	浊响	清晰	凹陷	硬滑	是
2	乌黑	蜷缩	沉闷	清晰	凹陷	硬滑	是
3	乌黑	蜷缩	浊响	清晰	凹陷	硬滑	是
4	青绿	蜷缩	沉闷	清晰	凹陷	硬滑	是
5	浅白	蜷缩	浊响	清晰	凹陷	硬滑	是
6	青绿	稍蜷	浊响	清晰	稍凹	软粘	是
7	乌黑	稍蜷	浊响	稍糊	稍凹	软粘	是
8	乌黑	稍蜷	浊响	清晰	稍凹	硬滑	是
9	乌黑	稍蜷	沉闷	稍糊	稍凹	硬滑	否
10	青绿	硬挺	清脆	清晰	平坦	软粘	否
11	浅白	硬挺	清脆	模糊	平坦	硬滑	否
12	浅白	蜷缩	浊响	模糊	平坦	软粘	否
13	青绿	稍蜷	浊响	稍糊	凹陷	硬滑	否
14	浅白	稍蜷	沉闷	稍糊	凹陷	硬滑	否
15	乌黑	稍蜷	浊响	清晰	稍凹	软粘	否
16	浅白	蜷缩	浊响	模糊	平坦	硬滑	否
17	青绿	蜷缩	沉闷	稍糊	稍凹	硬滑	否

$|y| = 2 $

$-\sum_{k=1}^2p_klog_2p_k = -(\frac{8}{17}log_2{\frac{8}{17}} + \frac{9}{17}log_2{\frac{9}{17}}) = 0.998$

以属性“色泽”为例，其对应3个子数据集，D1(青绿）=6，D2（乌黑）=6，D3（浅白）=5

$Ent(D^1) = -(\frac{3}{6}log_2{\frac{3}{6}} + \frac{3}{6}log_2{\frac{3}{6}}) = 1.000$

$Ent(D^2) = -(\frac{4}{6}log_2{\frac{4}{6}} + \frac{2}{6}log_2{\frac{2}{6}}) = 0.918$

$Ent(D^3) = -(\frac{1}{5}log_2{\frac{1}{5}} + \frac{4}{5}log_2{\frac{4}{5}}) = 0.722$

$\sum_{v=1}^3\frac{|D^v|}{|D|}Ent(D^v) = 0.998 -(\frac{6}{17} * 1.000 + \frac{6}{17} * 0.918 + \frac{5}{17} * 0.722) = 0.109$

同理可求出其他属性的信息增益：
Gain(D,色泽） = 0.109
Gain(D,根蒂） = 0.143
Gain(D,敲声） = 0.141
Gain(D,纹理） = 0.381
Gain(D,脐部） = 0.289
Gain(D,触感） = 0.006

可见，纹理的信息增益最大，使用纹理当做被划分属性

C4.5 --信息增益率（gain ratio）

$Gain_ratio(D,a) = \frac{Gain(D,a)}{IV(a)}$

$=-\sum_{v=1}^V\frac{|D^v|}{|D|}log_2\frac{|D^v|}{|D|}$
属性a的可能取值数目越多(即V越大），则IV(a)的值通常就越大。

启发：先从候选划分属性中找出信息增益高于平均水平的，再从中选取增益率最高的。

CART --基尼指数或者基尼不纯度(gini index)

CART是二叉树

$\sum_{k=1}^{|y|}\sum_{k'\neq k}p_kp_{k'} = 1 - \sum_{k=1}^{|y|}p^2_k$

反映了从D中随机抽取两个样例，其类别标记不一致的概率。
Gini（D）越小，数据集D的纯度越高

属性a的基尼指数：
$Gini\_index(D,a) = \sum_{v=1}^V\frac{|D^v|}{|D|}Gini(D^v)$

在候选属性集合中，选取那个使划分后基尼指数最小的属性。也就是划分属性使得纯度提高。

回归树

递归二分
$R_1(j,s) = \{x|x_j < s\}$

$R_2(j,s) = \{x|x_j < s\}$

$\sum{}_{{x_i}\in{R}_1(j,s)}(y_i - \bar y_{R1})^2 + \sum{}_{{x_i}\in{R}_2(j,s)}(y_i - \bar y_{R2})^2$

回归树剪枝
正则化项
$\sum_{m=1}^{|T|}\sum{}_{{x_i}\in{R_m}}$

基尼指数 vs 熵 vs 分类错误率

Gini ≈ Entropy

多棵树的类型

Bagging
Bootstraping
Random Forest

Justin-G

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
决策树 - Decision Tree

决策树 - Decision Tree按照树的类型：分类树回归树按照树的构建：信息增益–ID3信息增益率–C4.5基尼系数–CART决策树是什么，定义？使用树形结构将数据进行分类，每个内部节点对应一个输入属性，子节点代表父节点属性的可能取值，叶子节点对应一个预测结果。总体流程1、自根至叶的递归过程；2、在每个中间结点寻找一个“划分”（split or tes...
复制链接

扫一扫

专栏目录