统计学习第五章下半

6 决策树:CART算法

6.1 CART算法简介

从名字也可看出,是用树来进行分类与回归。

CART算法的树  是 二叉树!

之前那些多叉的决策树是可以转成二叉树的:

对于特征:纹理。 可分为清晰,与非清晰,这就变为二叉了;非清晰再分为模糊与否。

这样,就把多叉变为二叉了。 

6.2 CART算法---基尼指数

决策树都得使用一个指标去选择特征,之前我们学过用信息增益,信息增益比。

而CART算法是用基尼指数来选择特征。基尼指数反映的是不确定性的大小,用来度量不同特征的分类能力,基尼指数越小,说明不确定性就越小,说明该特征的分类能力越好。

样本中是不知道某一个分类它的出现概率是多少的,只能按经验方法,用该类个数/总个数。

特征下的基尼指数:

举例说明:水蜜桃例子

水蜜桃有两种分类:好吃 与 不好吃

 这是没有特征下计算的基尼指数。

假设有个特征是甜度,根据甜度进行分类 

 假设还有个特征是硬度

 甜度特征下的基尼指数更小,即分类的不确定性更小,分类能力更好,故应该选择甜度特征。

6.3CART分类树算法

例题解说:

 

对于特征“年龄”,它虽有三个分类:青年,中年,老年。

但我们可将其分为:青年与非青年(第一种分法);中年与非中年(第二种分法);老年与非老年(第三种分法)

接着按照三种分法分别计算基尼指数,如上图。

 以上是第二个特征:有工作与否

 以上是第三个特征:有房子与否

以上是第四个特征

比较四个特征的基尼指数,发现第三个特征“有自己的房子”的基尼指数最小

故根节点的特征选择“有自己的房子”

得到如下决策树:

那么,没有自己的房子的样本数据中,应该选择哪个特征作为分类呢?

计算剩下的特征在剩下的样本中的基尼指数。

对于这里,我们人眼能直接看出“有工作”特征的基尼指数为0而已,但是计算机不会,对于实际使用来说,计算机它还要经过计算才能得到。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值