机器学习——决策树

最新推荐文章于 2024-08-30 20:34:47 发布

MuBaicao

最新推荐文章于 2024-08-30 20:34:47 发布

阅读量213

点赞数 1

分类专栏：面试文章标签： CART 回归树

本文链接：https://blog.csdn.net/woshicao11/article/details/81486679

版权

面试专栏收录该内容

10 篇文章 1 订阅

订阅专栏

决策树是属于推导公式较少的一类分类器，但有些概念比较多。决策树优点：计算速度快、可读性强。缺点嘛，大概准确率会差点，容易过拟合。决策树你可以理解为它是一个归纳的过程，从特殊到一般。

决策树概念还是需要了解一下的：

决策树（boosting）是一种基本的分类和回归方法。呈属性结构，在分类问题中，表示基于特征对实例进行分类的过程。它可以被认为是if-then规则的集合，也可以认为是定义在特征空间与类空间上的条件概率分布。

决策树的学习是根据损失函数最小准则，包含三个步骤：特征选择，决策树的生成和决策树的剪枝

特征选择在于选取对训练数据具有分类能力的特征。特征选择的准则有：信息增益(ID3树)，信息增益比（C4.5树），基尼指数（CART树）

以下通过介绍这三个步骤。

1 特征选择

信息增益 了解信息增益之前，要明白什么是熵和什么是条件熵。熵，表示信息的不确定性，熵越大，不确定性越大。熵如何表示？熵只跟概率分布有关。设X是离散随机变量，其概率分布为：

P(X=xi) = pi， i=1,...,N

随机变量X的熵定义是：

$H(X)=-\sum_{i=1}^{N}p_{i}logp_{i}$

若X的概率分布为均匀分布，这个时候熵最大，为1，不确定性最大。（就不贴的H(X)图像了，建议看图记忆，更深刻）

那X的条件熵是什么呢？H(Y|X)，当给定Ｘ条件下Ｙ的概率分布的熵，因为Ｘ是集合，所以H(Y|X)为H(Y|X＝ｘ)的在Ｘ上的和．（理解概念就能推到出来）

$\fn_cm H(Y|X)=-\sum_{X}p(x)H(Y|x)=-\sum_{X}p(x)\sum_{Y}H(y|x)$

$H(Y|X)=-\sum_{X}p(x)\sum_{Y}p(y|x)log p(y|x)=-\sum_{Y,X}p(x)p(y|x)log p(y|x)$

现在定义互信息g(Y,X) = H(Ｙ)-H(Y|X)，决策树中信息增益等价于互信息．意义是，给定条件Ｘ对Ｙ分类的不确定降低的程度．给定数据Ｄ和特征Ａ，根据频数代替概率求得的熵成为经验熵，条件熵为经验条件熵．

数据Ｄ，｜Ｄ｜表示Ｄ的数量，假设有Ｋ个类Ｃk，|Ｃk|表示属于Ｃk的样本数量，特征Ａ有ｎ个取值｛ａ1,...,an｝，根据Ａ的取值将Ｄ划分为ｎ个自己Ｄ1,D2,...,Dn，|Di|表示个数．记子集Ｄi中属于类Ｃk的集合为Ｃik，|Ｃik|表示个数．面对复杂的描述还是对应图吧～～

则经验熵等于

$H(D)=-\sum_{k=1}^{K} \frac{|C_{k}|}{|D|}log_{2} \frac{|C_{k}|}{|D|}$

经验条件熵等于

$H(D|A)=-\sum_{i=1}^{n}(\frac{|D_{i}|}{|D|}\sum_{k=1}^{K}\frac{|D_{ik}|}{|D_{i}|}log\frac{|D_{ik}|}{|D_{i}| })$

信息增益 $g(D,A)=H(D)-H(D|A)$

信息增益比

信息增益的大小是相对于训练数据集而言，并没有绝对的意义。在分类问题困难时，也就是说在训练集的经验熵大的时候，信息增益值会偏大（我觉得这个是不影响特征选择的，因为每个特征在同一个节点的H(D)是相同的，但就是不同的数据比较不太好看，比如某个数据分了2类，某个数据分了3类，两个数据概率分布一样，则后者偏大）。所以为了解决这个问题，使用信息增益比作为参考标准。

$g_{R}(D,A)=\frac{g(D,A)}{H(D)}$