李宏毅机器学习-task10

最新推荐文章于 2022-07-04 17:29:20 发布

Xavier学长

最新推荐文章于 2022-07-04 17:29:20 发布

阅读量305

点赞数

分类专栏：李宏毅机器学习文章标签：李宏毅机器学习-task10

本文链接：https://blog.csdn.net/zuyuhuo6777/article/details/93096783

版权

李宏毅机器学习专栏收录该内容

9 篇文章 0 订阅

订阅专栏

学习Gini指数

学习回归、分类树

剪枝

1、学习Gini指数

基尼指数

分类问题中，假设有个类，样本点属于第类的概率为 $p_{k}$ ，则概率分布的基尼指数为：
$\operatorname{Gini}(p)=\sum_{k=1}^{K} p_{k}\left(1-p_{k}\right)=1-\sum_{k=1}^{K} p_{k}^{2}$
对于给定样本集合，其基尼指数为：
$\operatorname{Gini}(D)=1-\sum_{k=1}^{K}\left(\frac{\left|C_{k}\right|}{|D|}\right)^{2}$
如果样本集合根据特征是否取一可能值被分割成 $D_{1}$ 和 $D_{2}$ 两部分，则在特征的条件下，集合的基尼指数为：
$\operatorname{Gini}(D, A)=\frac{\left|D_{1}\right|}{|D|} \operatorname{Gini}\left(D_{1}\right)+\frac{\left|D_{2}\right|}{|D|} \operatorname{Gini}\left(D_{2}\right)$
使用基尼指数的优点：计算快，因为熵会涉及到大量的对数运算

2、学习分类与回归树

分类与回归树（CART）同样由特征选择、树的生成及剪枝组成，既可以用于分类也可以用于回归。

回归树生成

假设使用平方误差来表示回归树对于训练数据的预测误差

通俗理解：每次遍历所有特征，然后遍历每个特征的所有可能取值，在遍历的过程中每次计算把每个值当做切分点（此时数据集会分成两部分）时总体的平方误差之和，找出使其最小的取值，进行划分，以此类推。

输入：训练数据集D

输出：回归树

选择使下式达到最小值时的最优切分遍历和切分值
$\min _{j, s}\left[\min _{c_{1}} \sum_{x_{i} \in R_{1}(j, s)}\left(y_{i}-c_{1}\right)^{2}+\min _{c_{2}} \sum_{x_{i} \in R_{2}(j, s)}\left(y_{i}-c_{2}\right)^{2}\right]$
用选定的，划分数据集并决定其相应的输出值

$\begin{aligned} R_{1}(j, s) &=\left\{x | x^{(j)} \leqslant s\right\}, \quad R_{2}(j, s)=\left\{x | x^{(j)}>s\right\} \\ \hat{c}_{m} &=\frac{1}{N_{m}} \sum_{x \in R_{m}(j, s)} y_{i}, \quad x \in R_{m}, \quad m=1,2 \end{aligned}$

对子集继续执行上述两个步骤，直到满足停止条件
将输入空间划分为M个区域 $R_{1},R_{2},R_{3},...R_{M}$ ，生成决策树：

$f(x)=\sum_{m=1}^{M} \hat{c}_{m} I\left(x \in R_{m}\right)$

CART剪枝

核心思想：首先从生成算法产生的决策树 $T_{0}$ 低端开始不断剪枝，知道 $T_{0}$ 的根节点，形成一个子树序列 $\{T_{0},T_{1},...,T_{n}\}$ ；然后通过交叉验证法在独立的验证数据集上对子树序列进行预测从中选择最优子树

核心计算：

从整体树 $T_{0}$ 开始剪枝，对 $T_{0}$ 的任意内部节点，以为单结点树的损失函数为：
$C_{\alpha}(t)=C(t)+\alpha$
以为根节点的子树 $T_{t}$ 的损失函数为：
$C_{\alpha}\left(T_{t}\right)=C\left(T_{t}\right)+\alpha\left|T_{t}\right|$
当 $\alpha = 0$ 及其充分小时，有不等式：
$C_{\alpha}\left(T_{t}\right)<C_{\alpha}(t)$
当 $\alpha$ 增大时，在某一 $\alpha$ 有：
$C_{\alpha}\left(T_{t}\right)=C_{\alpha}(t)$
当 $\alpha$ 再增大时，上述不等式反向，只要 $\alpha=\frac{C(t)-C\left(T_{t}\right)}{\left|T_{t}\right|-1}$ , $T_{t}$ 与有相同的损失函数值，而的结点少，因此比 $T_{t}$ 更可取，对 $T_{t}$ 进行剪枝

输入：CART算法生成的决策树

输出：最优决策树

自上而下地对各内部节点计算下式，然后使 $\alpha$ 等于最小的值
$g(t)=\frac{C(t)-C\left(T_{t}\right)}{\left|T_{t}\right|-1}$
自上而下地遍历内部节点，如果有 $g(t) = \alpha$ ，进行剪枝，并对叶节点以多数表结法决定其类，得到树
对树重复上述操作，将得到一个子树序列
采用交叉验证法在子树序列中选取最优子树