决策树--从原理到实现

最新推荐文章于 2023-02-09 17:57:46 发布

xbmatrix

最新推荐文章于 2023-02-09 17:57:46 发布

阅读量328

点赞数

分类专栏：树模型文章标签：决策树

树模型专栏收录该内容

18 篇文章 0 订阅

订阅专栏

参考：http://blog.csdn.net/dark_scope/article/details/13168827

================================================================================

算算有相当一段时间没写blog了，主要是这学期作业比较多，而且我也没怎么学新的东西

接下来打算实现一个小的toy lib：DML，同时也回顾一下以前学到的东西

当然我只能保证代码的正确性，不能保证其效率啊~~~~~~

之后我会陆续添加进去很多代码，可以供大家学习的时候看，实际使用还是用其它的吧

================================================================================

一.引入

决策树基本上是每一本机器学习入门书籍必讲的东西，其决策过程和平时我们的思维很相似，所以非常好理解，同时有一堆信息论的东西在里面，也算是一个入门应用，决策树也有回归和分类，但一般来说我们主要讲的是分类，方便理解嘛。

虽然说这是一个很简单的算法，但其实现其实还是有些烦人，因为其feature既有离散的，也有连续的，实现的时候要稍加注意

(不同特征的决策，图片来自【1】)

O-信息论的一些point：

首先看这里： http://blog.csdn.net/dark_scope/article/details/8459576

然后加入一个叫信息增益的东西：

□.信息增益：(information gain)

g(D,A) = H(D)-H(D|A)

表示了特征A使得数据集D的分类不确定性减少的程度

□.信息增益比：(information gain ratio)

g‘(D,A)=g(D,A) / H(D)

□.基尼指数：

二.各种算法

1.ID3

ID3算法就是对各个feature信息计算信息增益，然后选择信息增益最大的feature作为决策点将数据分成两部分

然后再对这两部分分别生成决策树。

图自【1】

2.C4.5

C4.5与ID3相比其实就是用信息增益比代替信息增益，应为信息增益有一个缺点：

信息增益选择属性时偏向选择取值多的属性

算法的整体过程其实与ID3差异不大：图自【2】

3.CART

CART(classification and regression tree)的算法整体过程和上面的差异不大，然是CART的决策是二叉树的

每一个决策只能是“是”和“否”，换句话说，即使一个feature有多个可能取值，也只选择其中一个而把数据分类

两部分而不是多个，这里我们主要讲一下分类树，它用到的是基尼指数：

图自【2】

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

xbmatrix CSDN认证博客专家 CSDN认证企业博客

码龄8年

22: 原创

23万+: 周排名

126万+: 总排名

50万+: 访问

: 等级

3031: 积分

95: 粉丝

129: 获赞

25: 评论

528: 收藏

私信

关注

热门文章

分类专栏

最新评论

偏度(skewness)和峰度(kurtosis）
01码匠: 感谢各位的解释~
偏度(skewness)和峰度(kurtosis）
一江明月一江秋y: 不要从字面上去理解，看我上面的解释，右偏就代表右侧拖尾，峰值更靠近左边
偏度(skewness)和峰度(kurtosis）
一江明月一江秋y: 3 阶中心距啊，下标数字就代表是几阶
偏度(skewness)和峰度(kurtosis）
一江明月一江秋y: 你就只需要记住，正偏（右偏），右侧拖尾；负偏（左偏），左侧拖尾。总之一句话，向哪里偏，哪一侧就是拖尾分布。千万不要从字面上去理解，以为左偏，峰值就更靠近左侧，这是错误的想法
偏度(skewness)和峰度(kurtosis）
墨离的八宝粥: 后尾和瘦尾画反了

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。