统计学习方法 5 - 决策树

最新推荐文章于 2024-07-19 22:36:19 发布

周某1111

最新推荐文章于 2024-07-19 22:36:19 发布

阅读量96

点赞数

分类专栏：自学文章标签：算法

版权

48 篇文章 5 订阅

订阅专栏

决策树：判别模型
问题描述：假设要对一批样本分K类。其中这些样本又有A个特征。如何生成一个树形结构，按照特征一层一层往下分。
决策树生成思路：有A个特征可供分类，但是先选哪个特征作为分类标准呢？决策树为了解决这个问题，首先会判断该特征的对样本的区分能力，比如在男宿舍这样一个条件下判断谁有ipad，如果用性别作为一个特征来判断分类，收益很小；如果我们用生活费多少来判断，那么对这个分类就有很大的帮助。决策树这里用信息增益来判断特征Ai对分类的影响大小，先选择对分类区分度大的特征，在用其他特征依次往下分。
信息增益：
熵：混乱程度的度量
一个随机变量的熵可以由其各种取值的概率定义为：
$-\sum_{i=1}^{n}p_{i}logp_{i}$
信息增益：定义特征 A 对训练数据集 D 的信息增益 g (D,A)，定义为集合 D 的经验熵 H(D) 与特征 A 给定条件下 D 的经验条件嫡 H(D∣A) 之差，即
g (D,A) = H(D) - H(D∣A)
根据特征 A 的取值将 D 划分为n个子集 $D_{1},D_{2},...,D_{n}$ ，
信息增益比:

分母表示以特征A代替类别在数据集上计算熵。

决策树生成算法：

参考：
https://blog.csdn.net/Smile_mingm/article/details/108386197?spm=1001.2014.3001.5501

关注