统计学习第五章下半

往797

已于 2023-09-14 19:21:14 修改

阅读量81

点赞数

分类专栏：统计学习文章标签：学习

于 2023-08-24 20:57:50 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_67497686/article/details/132418390

版权

统计学习专栏收录该内容

8 篇文章

订阅专栏

6 决策树：CART算法

6.1 CART算法简介

从名字也可看出，是用树来进行分类与回归。

CART算法的树是二叉树！

之前那些多叉的决策树是可以转成二叉树的：

对于特征：纹理。可分为清晰，与非清晰，这就变为二叉了；非清晰再分为模糊与否。

这样，就把多叉变为二叉了。

6.2 CART算法---基尼指数

决策树都得使用一个指标去选择特征，之前我们学过用信息增益，信息增益比。

而CART算法是用基尼指数来选择特征。基尼指数反映的是不确定性的大小，用来度量不同特征的分类能力，基尼指数越小，说明不确定性就越小，说明该特征的分类能力越好。

样本中是不知道某一个分类它的出现概率是多少的，只能按经验方法，用该类个数/总个数。

特征下的基尼指数：

举例说明：水蜜桃例子

水蜜桃有两种分类：好吃与不好吃

这是没有特征下计算的基尼指数。

假设有个特征是甜度，根据甜度进行分类

假设还有个特征是硬度

甜度特征下的基尼指数更小，即分类的不确定性更小，分类能力更好，故应该选择甜度特征。

6.3CART分类树算法

例题解说：

对于特征“年龄”，它虽有三个分类：青年，中年，老年。

但我们可将其分为：青年与非青年（第一种分法）；中年与非中年（第二种分法）；老年与非老年（第三种分法）

接着按照三种分法分别计算基尼指数，如上图。

以上是第二个特征：有工作与否

以上是第三个特征：有房子与否

以上是第四个特征

比较四个特征的基尼指数，发现第三个特征“有自己的房子”的基尼指数最小

故根节点的特征选择“有自己的房子”

得到如下决策树：

那么，没有自己的房子的样本数据中，应该选择哪个特征作为分类呢？

计算剩下的特征在剩下的样本中的基尼指数。

对于这里，我们人眼能直接看出“有工作”特征的基尼指数为0而已，但是计算机不会，对于实际使用来说，计算机它还要经过计算才能得到。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。