【机器学习】决策树入门理论

最新推荐文章于 2022-06-27 03:24:27 发布

Stupid小池

最新推荐文章于 2022-06-27 03:24:27 发布

阅读量274

点赞数

分类专栏：机器学习

iamzchi

本文链接：https://blog.csdn.net/weixin_44986776/article/details/109461451

版权

机器学习专栏收录该内容

7 篇文章 1 订阅

订阅专栏

熵

在这里插入图片描述
事件发生的概率越小，不确定性越大。这个特性用log函数可以很合适得表示出来，如下图所示，概率0.1的时候y的绝对值很大，0.9的时候绝对值很小。

这就引出熵的数学表达式，注意前面加了-号，这就使得概率越小，熵越大（混乱度&不确定度更高）：
在这里插入图片描述

还有一个指标叫做基尼系数，跟熵一个意思，数学表达式如下。同样的，p越大，gini值越小：
在这里插入图片描述

上面的两个指标越大说明越混乱，分类效果越不好。

决策树构造

在这里插入图片描述
比如现在有这样的一个数据，看天气情况决定出不出去玩

但是要根据哪一个属性划分呢？这就需要分别计算熵值和信息增益，过程如下：

在这里插入图片描述

在这里插入图片描述
信息增溢越大越好，越大说明纯度提升的越高。

接下来介绍几种决策树的构造方法：
在这里插入图片描述
评价函数：叶子结点中样本个数*熵值之和

第一种ID3是计算信息增益划分，但是这种方法是有bug的！比如现在有一列叫做id，数据是[1,2,3…13,14]
在这里插入图片描述

如果按id划分的话，每个值都会被分到一个类，每个类因为只有1个数，所以是最纯的，所以信息增益最大，算法就会选择id作为分类指标，于是就出错了，因为id和标签毛关系都没有。（结论信息增益偏向于选择取值较多的特征）

ID3算法的改进：C4.5算法

这时候就需要用到信息增益率（gain ratio）
信息增益率为信息增益/当前熵

决策树过拟合的解决

分的太细（树的层数太高）会产生过拟合的现象，所以需要剪枝。
在这里插入图片描述
预剪枝通过提前设置参数
后剪枝通过损失函数（其中C(T)是前面说的评价函数）：

随机森林🌲🌲🌲

随机体现在：

样本数据选择随机

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【机器学习】决策树入门理论

熵事件发生的概率越小，不确定性越大。这个特性用log函数可以很合适得表示出来，如下图所示，概率0.1的时候y的绝对值很大，0.9的时候绝对值很小。这就引出熵的数学表达式，注意前面加了-号，这就使得概率越小，熵越大（混乱度&不确定度更高）：还有一个指标叫做基尼系数，跟熵一个意思，数学表达式如下。同样的，p越大，gini值越小：上面的两个指标越大说明越混乱，分类效果越不好。决策树构造比如现在有这样的一个数据，看天气情况决定出不出去玩但是要根据哪一个属性划分呢？这就需要分别计算熵
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。