统计学习方法笔记（五）

最新推荐文章于 2020-07-12 16:10:41 发布

zuxiaodon

最新推荐文章于 2020-07-12 16:10:41 发布

阅读量1.2k

点赞数 1

分类专栏：机器学习文章标签：决策树熵信息增益基尼指数机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zuxiaodon/article/details/51967947

版权

机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

决策树：

决策树模型呈树形结构，在分类问题中，表示基于特征对实例进行分类的过程，它可以认为是if-then 规则的集合，也可以认为是定义在特征空间与类空间上的条件概率分布。学习时，利用训练数据，根据损失函数最小化的原则建立决策树模型.预测时，对新的数据，利用决策树模型进行分类决策树学习通常包括3 个步骤：特征选择、决策树的生成和决策树的修剪。

决策树模型由结点和有向边组成，其中结点分为：内部结点和叶结点。内部结点表示一个特证或属性，叶结点表示个类。

特征选择：

特征选择在于选取对训练数据具有分类能力的特征.这样可以提高决策树学习的效率.如果利用一个特征进行分类的结果与随机分类的结果没有很大差别，则称这个特征是没有分类能力的。经验上扔掉这样的特征对决策树学习的精度影响不大.通常特征选择的准则是信息增益或信息增益比。

接下来重点介绍信息增益：

首先先给出熵和条件熵的概念：

熵(entropy)

设X是一个取有限个值的离散随机变量，其概率分布为

则随机变量X的熵定义为

由定义也可看出，熵只依赖于X的分布，与X的具体取值无关。

熵越大，随机变量的不确定性就越大。从定义也可看出

一般我们用的时候都是从数据估计得到的,所对应的熵与条件熵又称为经验熵和经验条件熵。这里如果有0概率出现，我们定义0log0=0。

而信息增益表示的就是集合D的经验熵与特征A给定条件下D的经验条件熵的差

很拗口对不对，下面给出算法流程，然后通过例子来了解。

例子：这是一个15样本的贷款申请训练数据。

信息增益比：

信息增益选择方法有一个很大的缺陷，它总是会倾向于选择属性值多的属性，如果我们在上面的数据记录中加一个姓名属性，假设14条记录中的每个人姓名不同，那么信息增益就会选择姓名作为最佳属性，因为按姓名分裂后，每个组只包含一条记录，而每个记录只属于一类（要么购买电脑要么不购买），因此纯度最高，以姓名作为测试分裂的结点下面有14个分支。但是这样的分类没有意义，它没有任何泛化能力。

而信息增益比就是信息增益与数据集D的经验熵之比:

基尼指数：

给出定义:

对于给定的样板集合D，其基尼指数为

这里，Ck是D中属于第k类的样本子集，K是类个数。

如果样本集合D根据A是否取某一可能值a被分割成D1,D2两部分，即

则在特征A的条件下，集合D的基尼指数定义为：

决策树的生成：

知道了怎么进行特征选择，很自然的，决策树的生产，就是每次子结点上用选定的特征选择方法去选择特征，递归的生成树，不同的算法选择的方法不同，像ID3算法用的是信息增益，而C4.5用的是信息增益比，CART用的是基尼指数。

关于ID3,C4.5之前的例子已经知道怎么选特征了，这里就提一下CART算法生成树的过程，因为CART假设的决策树是二叉树，与另外两个不一样。

例子：还是之前的例子，我们用CART算法生成决策树。

决策树剪枝：

简单的说，剪枝的意义在于防止过拟合。原因在于决策树生成的太细，过于复杂。

具体做法就是从已生成的树上剪掉一些子树或叶结点，将其根结点或父结点作为叶结点。

书上介绍了一种简单的剪枝算法。就是通过正则化的损失函数。

剪枝最重要一步就是

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
统计学习方法笔记（五）

决策树：决策树模型呈树形结构，在分类问题中，表示基于特征对实例进行分类的过程，它可以认为是if-then 规则的集合，也可以认为是定义在特征空间与类空间上的条件概率分布。学习时，利用训练数据，根据损失函数最小化的原则建立决策树模型.预测时，对新的数据，利用决策树模型进行分类决策树学习通常包括3 个步骤：特征选择、决策树的生成和决策树的修剪。决策树模型由结点和有
复制链接

扫一扫

专栏目录

zuxiaodon CSDN认证博客专家 CSDN认证企业博客

码龄12年

6: 原创

55万+: 周排名

96万+: 总排名

9925: 访问

: 等级

182: 积分

8: 粉丝

6: 获赞

2: 评论

6: 收藏

私信

关注

热门文章

分类专栏

机器学习 5篇

最新评论

统计学习方法笔记（三）
MR_Radish666: 这是摘抄，，，书上写的内容有好多地方都不太理解，例题里面的过程太抽象了
统计学习方法笔记（三）
moses1994: 您好，我有两点疑惑，希望能与您交流，QQ：1002100760： 1、“根据x轴方向的值2,5,9,4,8,7排序选出中值为7”，2,5,9,4,8,7排序为：2 4 5 7 8 9，中位数应该是（5+7）/2=6，为什么选择的是7？ 2、右子空间包含2个节点{（9,6），（8,1）}，按照Y的排序为：1 6，中位数为（1+6）/2=3.5，为什么选择6作为根节点？

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。