决策树

最新推荐文章于 2024-07-25 12:32:58 发布

xdzzju

最新推荐文章于 2024-07-25 12:32:58 发布

阅读量296

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/xdzzju/article/details/64122422

版权

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

决策树

决策树

决策树模型与学习

决策树由节点（内部节点+叶节点）和有向边组成。内部节点表示一个特征或属性，叶节点 - 表示一个类。
决策树对应的if-then规则有一个重要的性质：互斥并且完备。
决策树是给定特征条件（特征空间中互不相交的单元或区域）下的一种条件概率分布。
决策树学习的步骤：
- 特征选择
- 递归生成
- 剪枝泛化
决策树学习常用算法有：ID3、C4.5、CART

特征选择

信息增益
特征选择是决定用哪个特征来划分特征空间。信息增益是一种选择特征的准则。
- 熵的定义
  $X$ 是一个离散随机变量，其概率分布为 $P(X=x_i)=p_i,i=1,2,...,n.$ 随机变量 $X$ 的熵定义为
  $H (X) = - \sum i = 1 n p i log p i$ $H(X)=-\sum_{i=1}^np_i\log{p_i}$
  熵与 $X$ 的取值无关，只与 $X$ 的分布有关，熵也可记作 $H(p)$ ，熵越大，随机变量的不确定性越大。可以证明 $0\leq H(p)\leq \log{n}$
- 条件熵
  $H(Y|X)$ 定义为 $X$ 给定条件下 $Y$ 的条件概率分布的熵对 $X$ 的数学期望
  $H (Y | X) = \sum i = 1 n p i H (Y | X = x i)$ $H(Y|X)=\sum_{i=1}^np_iH(Y|X=x_i)$
  概率由数据估计（特别是极大似然估计）得到时，熵和条件熵分别称为经验熵和经验条件熵。
- 信息增益表示得知特征 $X$ 的信息而使得类 $Y$ 的信息不确定性减少的程度。特征 $A$ 对训练数据集 $D$ 的信息增益，定义为
  $g (D, A) = H (D) - H (D | A)$ $g(D,A)=H(D)-H(D|A)$
  根据信息增益准则的特征选择方法是：对训练数据集（或子集）D，计算其每个特征的信息增益，选择信息增益最大的特征。
- 信息增益的算法
  1、计算数据集D的经验熵，其中K是总类数
  $H (D) = - \sum k = 1 K | C k | | D | l o g 2 | C k | | D |$ $H(D) = -\sum_{k=1}^K\frac{|C_k|}{|D|}log_2\frac{|C_k|}{|D|}$
  2、计算特征A对数据集D的经验条件熵，其中n表示根据特征A可以将D分类成n类
  $H (D | A) = \sum i = 1 n | D i | | D | H (D i) = - \sum i = 1 n | D i | | D | \sum k = 1 K | D i k | | D | l o g 2 | D i k | | D |$ $H(D|A) = \sum_{i=1}^n\frac{|D_i|}{|D|}H(D_i) = -\sum_{i=1}^n\frac{|D_i|}{|D|}\sum_{k=1}^K\frac{|D_{ik}|}{|D|}log_2\frac{|D_{ik}|}{|D|}$
  3、计算信息增益
  $g (D, A) = H (D) - H (D | A)$ $g(D, A) = H(D) - H(D|A)$
信息增益比
以信息增益作为划分训练数据集的特征，存在偏向于选择取值较多的特征的问题。使用信息增益比可以对这一问题进行校正，这是特征选择的另一准则。
$g R (D, A) = g ( D , A ) H A ( D )$ $g_R(D, A) = \frac{g(D, A)}{H_A(D)}$
其中， $H_A(D)$ 是数据集D关于特征A的值的熵 $H_A(D) = \sum_{i=1}^n\frac{|D_i|}{|D|}log_2\frac{|D_i|}{|D|}$ ，n是特征A取值的个数

决策树的生成

ID3算法
输入：训练数据集D，特征集A，阈值ε；
输出：决策树T。
（1）若D中所有实例属于同一类 $C_k$ ，则T为单节点树，并将类 $C_k$ 作为该节点的类标记，返回T；
（2）若A是空寂，则T为单节点树，并将D中实例数最大的类 $C_k$ 作为该节点的类标记，返回T；
（3）否则，计算A中各特征对D的信息增益，廁信息增益最大的特征 $A_g$ ；
（4）如果 $A_g$ 的信息增益小于阈值ε，则置T为单节点树，并将D中实例数最大的类 $C_k$ 作为该节点的类标记，返回T；
（5）否则，对 $A_g$ 的每一可能值 $a_i$ ，依 $A_g=a_i$ 将D分割为若干非空子集 $D_i$ ，将 $D_i$ 中实例数最大的类作为标记，构建子节点，由节点及其子节点构成数T，返回T；
（6）对第i个子节点，以 $D_i$ 为训练集，以 $A - {A_g}$ 为特征集，递归地调用（1）到（5）步，得到子树 $T_i$ ，返回 $T_i$ 。
C4.5算法
C4.5在生成的过程中，用信息增益比来选择特征。

决策树的剪枝

剪枝算法
输入：生成算法产生的整个树T，参数α；
输出：修剪后的树 $T_α$ 。
（1）计算每个节点的经验熵；
（2）递归地从树的叶节点向上回缩，设一组叶节点回缩到其父节点之前与之后的整体树分别为 $T_B与T_A$ ，损失函数分别是 $C_α(T_B)与C_α(T_A)$ ，如果 $C_α(T_B) > C_α(T_A)$ ，则进行剪枝，即将父节点变为新的叶节点。
（3）返回（2），直到不能继续为止，得到损失函数最小的子树 $T_α$ 。

CART算法

回归树的生成
平方误差最小化准则
分类树的生成
基尼指数最小化准则
基尼指数
$G i n i (D) = 1 - \sum k = 1 K (| C k | | D |) 2$ $Gini(D) = 1 - \sum_{k=1}^K(\frac{|C_k|}{|D|})^2$
其中， $C_k$ 是D中属于第k类的样本子集，K是类的个数
如果样本集合D根据特征A是否取某一可能值a被分割成 $D_1和D_2$ ，则在特征A条件下，集合D的基尼指数定义为
$G i n i (D, A) = | D 1 | | D | G i n i (D 1) + | D 2 | | D | G i n i (D 2)$ $Gini(D, A) = \frac{|D_1|}{|D|}Gini(D_1) + \frac{|D_2|}{|D|}Gini(D_2)$
Gini(D)表示集合D的不确定性,Gini(D, A)表示经A = a分割后集合D的不确定性
CART剪枝
剪枝形成一个子树序列；然后通过交叉验证法在独立的验证数据集上对子树序列进行测试，从中选择最优子树。

参考文献：李航《统计学习方法》

xdzzju

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
决策树

决策树模型决策树由节点（内部节点+叶节点）和有向边组成。内部节点表示一个特征或属性，叶节点表示一个类。决策树对应的if-then规则有一个重要的性质：互斥并且完备。决策树是给定特征条件（特征空间中互不相交的单元或区域）下的一种条件概率分布。
复制链接

扫一扫

专栏目录