【机器学习】决策树入门理论

在这里插入图片描述
事件发生的概率越小,不确定性越大。这个特性用log函数可以很合适得表示出来,如下图所示,概率0.1的时候y的绝对值很大,0.9的时候绝对值很小。
在这里插入图片描述
这就引出熵的数学表达式,注意前面加了-号,这就使得概率越小,熵越大(混乱度&不确定度更高):
在这里插入图片描述

还有一个指标叫做基尼系数,跟熵一个意思,数学表达式如下。同样的,p越大,gini值越小:
在这里插入图片描述

上面的两个指标越大说明越混乱,分类效果越不好。

决策树构造

在这里插入图片描述
比如现在有这样的一个数据,看天气情况决定出不出去玩
在这里插入图片描述
但是要根据哪一个属性划分呢?这就需要分别计算熵值和信息增益,过程如下:
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
信息增溢越大越好,越大说明纯度提升的越高。

接下来介绍几种决策树的构造方法:
在这里插入图片描述
评价函数:叶子结点中样本个数*熵值之和

第一种ID3是计算信息增益划分,但是这种方法是有bug的!比如现在有一列叫做id,数据是[1,2,3…13,14]
在这里插入图片描述

如果按id划分的话,每个值都会被分到一个类,每个类因为只有1个数,所以是最纯的,所以信息增益最大,算法就会选择id作为分类指标,于是就出错了,因为id和标签毛关系都没有。(结论 信息增益偏向于选择取值较多的特征)

ID3算法的改进:C4.5算法

这时候就需要用到信息增益率(gain ratio)
信息增益率为信息增益/当前熵

决策树过拟合的解决

分的太细(树的层数太高)会产生过拟合的现象,所以需要剪枝。
在这里插入图片描述
预剪枝通过提前设置参数
后剪枝通过损失函数(其中C(T)是前面说的评价函数):
在这里插入图片描述

随机森林🌲🌲🌲

随机体现在:

  1. 样本数据选择随机
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值