《机器学习实战》学习总结(二)决策树算法原理

概述

决策树分类算法属于有监督类学习算法。

该分类算法需要利用训练数据得到分类模型,然后再对待分类点进行决策分类。

分类模型(决策树)的计算过程如下:

1、计算训练数据的原始熵

2、分析训练数据,得到每个特征及其的可能取值

3、计算按每个特征分类后的熵

4、选择原始熵与每个特征分类后熵差值最大的那个特征作为分类特征

    (说明:把一个数据集按某个特征分成多个数据集后,这些数据集的熵一定是小于原数据集的熵的)

5、在步骤4中找到了第一个分类特征,接下来对分类后的数据集分别重复上述过程,即可得到决策树模型

6、如果数据集已经处理了所有属性,但是类标签依然不是唯一的,这种情况下,通常会采用投票的方式决定该几点的分类,即计算那个标签出现的频次最多,则选取该标签作为分类特征。

模型训练过程如下所示:

说明:每次计算熵的过程只与数据集的Lable有关,确切的说是每个Lable取值的概率有关


如下通过一个示例说明将数据集分裂后,熵值会变小:

原始数据集:

F1

F2

F3

Lable

0

0

0

L1

1

1

1

L1

0

1

2

L2

标签L1的概率2/3,标签L2的概率 1/3

=-2/3*log(2/3)-1/3*log(1/3) =0.2764

特征值F1有两种取值01,据此将上述数据集分为两个:

F1

F2

F3

Lable

0

0

0

L1

0

1

2

L2

 

 

 

 

F1

F2

F3

Lable

1

1

1

L1

第一个数据集占总数据集的2/3,其中L1的概率:1/2L2的概率1/2

第二个数据集占总数据集的1/3,L1的概率为:1

=-{2/3*[1/2*log(1/2)+1/2*log(1/2)]}-[1/3*(1*log(1))]=0.2007

可以看出按特征值L1的取值分成的两个数据集的熵要比原来数据集的熵小。



  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

汀桦坞

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值