机器学习算法进阶学习笔记——决策树与随机森林

最新推荐文章于 2024-10-01 23:00:34 发布

学习爱好者fz

最新推荐文章于 2024-10-01 23:00:34 发布

阅读量174

点赞数

分类专栏：机器学习算法进阶文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_45031468/article/details/114239952

版权

机器学习算法进阶专栏收录该内容

4 篇文章 0 订阅

订阅专栏

机器学习算法进阶学习笔记——决策树与随机森林

决策树与随机森林
随机森林
- Bootstrap
- 投票机制

决策树与随机森林

决策树（Decision Tree)
囗决策树是一种树型结构，其中每个内部结点表示在一个属性上的测试，每个分支代表一
个测试输出，每个叶结点代表一种类别。
囗决策树学习是以实例为基础的归纳学习。
口决策树学习采用的是自顶向下的递归方法，其基本思想是以信息熵为度量构造一棵熵值下降最快的树，到叶子节点处的熵值为零，此时每个叶节点中的实例都属于同一类。

信息增益

概念：当熵和条件熵中的概率由数据估计（特别是极大似然估计）得到时，所对应的熵和条件熵分别称为经验熵和经验条件熵。

信息增益表示得知特征A的信息而使得类X的信息的不确定性减少的程度。

定义: 特征 $A$ 对训练数据集 $D$ 的信息增益 $\mathrm{g}(\mathrm{D}, \mathrm{A})$ ,的经验条件熵 $H (D ∣ A)$ 之差, 即：
$\mathrm{g}(\mathrm{D}, \mathrm{A})=\mathrm{H}(\mathrm{D})-\mathrm{H}(\mathrm{D} \mid \mathrm{A})$
显然，这即为训练数据集 $D$ 和特征 $A$ 的互信息。

条件熵

$H (X, Y) - H (X)$
$=-\sum_{x, y} p(x, y) \log p(x, y)+\sum_{x} p(x) \log p(x)$
$=-\sum_{x, y} p(x, y) \log p(x, y)+\sum_{x}\left(\sum_{y} p(x, y)\right) \log p(x)$
$=-\sum_{x, y} p(x, y) \log p(x, y)+\sum_{x, y} p(x, y) \log p(x)$
$=-\sum_{x, y} p(x, y) \log \frac{p(x, y)}{p(x)}$
$=-\sum_{x, y} p(x, y) \log p(y \mid x)$
$=-\sum_{x} \sum_{y} p(x, y) \log p(y \mid x)$
$=-\sum_{x} \sum_{y} p(x) p(y \mid x) \log p(y \mid x)$
$=-\sum_{x} p(x) \sum_{y} p(y \mid x) \log p(y \mid x)$
$=\sum_{x} p(x)\left(-\sum_{y} p(y \mid x) \log p(y \mid x)\right)$
$=\sum_{x} p(x) H(Y \mid X=x)$
$\mid X)$

经验条件熵 $\mathrm{H}(\mathrm{D} \mid \mathrm{A})$

$\mid A)=-\sum_{i, k} p\left(D_{k}, A_{i}\right) \log p\left(D_{k} \mid A_{i}\right)$
$=-\sum_{i, k} p\left(A_{i}\right) p\left(D_{k} \mid A_{i}\right) \log p\left(D_{k} \mid A_{i}\right)$
$=-\sum_{i=1}^{n} \sum_{k=1}^{K} p\left(A_{i}\right) p\left(D_{k} \mid A_{i}\right) \log p\left(D_{k} \mid A_{i}\right)$
$=-\sum_{i=1}^{n} p\left(A_{i}\right) \sum_{k=1}^{K} p\left(D_{k} \mid A_{i}\right) \log p\left(D_{k} \mid A_{i}\right)$
$=-\sum_{i=1}^{n} \frac{\left|D_{i}\right|}{|D|} \sum_{k=1}^{K} \frac{\left|D_{i k}\right|}{\left|D_{i}\right|} \log \frac{\left|D_{i k}\right|}{\left|D_{i}\right|}$

信息增益率

$\square$ 信息增益率 $\mathrm{g}_{\mathrm{r}}(\mathrm{D}, \mathrm{A})=\mathrm{g}(\mathrm{D}, \mathrm{A}) / \mathrm{H}(\mathrm{A})$

基尼系数

$\square$ Gini 系数：
$\begin{array}{l} \operatorname{Gini}(p)=\sum_{k=1}^{K} p_{k}\left(1-p_{k}\right)=1-\sum_{k=1}^{K} p_{k}^{2} \\ =1-\sum_{k=1}^{K}\left(\frac{\left|C_{k}\right|}{|D|}\right)^{2} \end{array}$

将 $\mathrm{f}(\mathrm{x})= -lnx$ 在 $\mathrm{x}=1$ 处一阶展开，忽略高阶无穷小, 得到 $\mathrm{f}(\mathrm{x}) \approx 1-\mathrm{x}$

决策树评价

$\square$ 假定样本的总类别为K个。
$\square$ 对于决策树的某叶结点，若某类样本 $n_{\mathrm{j}}=\mathrm{n} 而\mathrm{n}_{1}, \ldots, \mathrm{n}_{\mathrm{j}-1}, \mathrm{n}_{\mathrm{j}+1}, \ldots, \mathrm{n}_{\mathrm{K}}=0$ ，称该结点为纯结点：
若各类样本数目 $\mathrm{n}_{1}=\mathrm{n}_{2}=\ldots=\mathrm{n}_{\mathrm{k}}=\mathrm{n} / \mathrm{K}$ , 称该样本为均结点。
$\square$ 纯节点的熵 $\mathrm{H}_p=0$ 最小
$\square$ 均结点的熵 $\mathrm{H}_{\mathrm{u}}=\ln \mathrm{K}, \quad$ 最大
$\square$ 对所有叶节点的熵求和，该值越小说明对样本的分类越精确。
$\square$ 各叶结点包含的样本数目不同，可使用样本数加权求和。
$\square$ 评价函数: $\quad C(T)=\sum_{t \in l e a f} N_{t} \cdot H(t)$ 。
由于该评价函数越小越好，所以，可以称之为“损失函数”。