(四)决策树(原理)

信息熵

表示物体类别的混乱程度,用来选择用于分类的特征属性的指标

一、

信息增益

 如果以属性a来分类,表示集合中属性a值为的样本数量

表示该属性某一取值的集合的信息熵,越小表示的样本越纯

而信息增益的定义

即表示如果D按属性a分类,可以降低的信息熵程度,增益值Gain越大表示分类后变得越纯

二、

信息增益率

 增益率=增益/IV(a),通常属性a的取值越少,即以a分组的分支越少,增益率越大

三、

基尼值

 Pk为第k类样本占的比例,基尼值越小,纯度越高

基尼指数

 选择划分后基尼指数Gini最小的属性作为分类属性

以上为三种特征划分方式,一些算法中的使用: 

决策树剪枝优化

        分为预剪枝后剪枝

 ①预剪枝

        对比划分前和划分后在验证集上的准确率,如果准确率降低了,那就把该节点分类为占比较多的标签,不再往下细分。

 ②后剪枝

         生成一颗完整的决策树,从底向上对非叶节点进行验证,对比将该节点划分前后在验证集上的准确率

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Vic.GoodLuck

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值