吃瓜教程TASK03

第四章 决策树

几个基础公式

信息熵

### 信息增益
信息增益

增益率

单纯使用信息增益作为选择最优划分属性的指标,会导致对可取值数目较多的属性有所偏好,决策树更易缺少泛化性,因此使用"增益率"作为选择指标.
在这里插入图片描述IV(a)是属性a的固有值,a属性的取值可能数目越多,固有值越大。增益率对可取值数目较少的属性有所偏好。

基尼指数

基尼指数是在基尼值的基础上计算的,基尼指数越小则数据集纯度越高。

剪枝处理

决策树对付过拟合的主要手段

预剪枝

在决策树生成过程中对每个节点进行评估,除去对决策树泛化性能无帮助的节点

后剪枝

先生成决策树,再从下往上考察节点,精简决策树。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值