决策树的理解

决策树(decision tree)是一个树结构(可以是二叉树或非二叉树)。其每个非叶节点表示一个特征属性上的测试,每个分支代表这个特征属性在某个值域上的输出,而每个叶节点存放一个类别。使用决策树进行决策的过程就是从根节点开始,测试待分类项中相应的特征属性,并按照其值选择输出分支,直到到达叶子节点,将叶子节点存放的类别作为决策结果。

http://www.cnblogs.com/leoo2sk/archive/2010/09/19/decision-tree.html

决策树算法本质上就是要找出每一列的最佳划分以及不同列划分的先后顺序及排布

主要包括三个步骤:特征选择,决策树的生成,决策树的修剪。


一、特征选择:依据信息增益或信息增益比

不同算法使用的依据不同

(一)信息增益与信息增益比

https://www.zhihu.com/question/22928442

1、信息增益


熵:表示随机变量的不确定性。

条件熵:在一个条件下,随机变量的不确定性。

信息增益:熵 - 条件熵

在一个条件下,信息不确定性减少的程度!

通俗地讲,X(明天下雨)是一个随机变量,X的熵可以算出来, Y(明天阴天)也是随机变量,在阴天情况下下雨的信息熵我们如果也知道的话(此处需要知道其联合概率分布或是通过数据估计)即是条件熵。

2、信息增益比
http://blog.csdn.net/olenet/article/details/46433297



3、联系
在离散值且分布项数有限情况下两者区分度不大,当区分度过细(门牌号,身份证号甚至是连续数据如身高)时需要防止区分度太细


(二)


二、决策树的生成

(一)ID3算法

以信息增益度量属性选择,选择分裂后信息增益最大的属性进行分裂

只有树的生成,没有剪枝,容易发生过拟合

(二)C4.5算法

改进了ID3算法,使用信息增益比


三、决策树的剪枝与CART算法

解析与code:https://blog.csdn.net/u014688145/article/details/53326910

理解剪枝  https://www.cnblogs.com/csyuan/p/6535366.html

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值