信息增益，信息增益率，信息熵，互信息，交叉熵，条件熵，gini系数

最新推荐文章于 2024-04-19 09:39:59 发布

AmorFatiall

最新推荐文章于 2024-04-19 09:39:59 发布

阅读量2k

点赞数

分类专栏：个人学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43561290/article/details/102555643

版权

（一）信息熵

在这里插入图片描述

（二）信息增益（ ID3算法）

在这里插入图片描述
Gain（A）=I(A) -H(A)
信息增益的理解：对于待划分的数据集D，其 entroy(前)是一定的，但是划分之后的熵 entroy(后)是不定的，entroy(后)越小说明使用此特征划分得到的子集的不确定性越小（也就是纯度越高），因此 entroy(前) - entroy(后)差异越大，说明使用当前特征划分数据集D的话，其纯度上升的更快。而我们在构建最优的决策树的时候总希望能更快速到达纯度更高的集合，这一点可以参考优化算法中的梯度下降算法，每一步沿着负梯度方法最小化损失函数的原因就是负梯度方向是函数值减小最快的方向。同理：在决策树构建的过程中我们总是希望集合往最快到达纯度更高的子集合方向发展，因此我们总是选择使得信息增益最大的特征来划分当前数据集D。
缺点：信息增益偏向取值较多

最低0.47元/天解锁文章

关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
信息增益，信息增益率，信息熵，互信息，交叉熵，条件熵，gini系数

信息熵信息增益Gain（A）=I(A) -H(A)信息增益的理解：对于待划分的数据集D，其 entroy(前)是一定的，但是划分之后的熵 entroy(后)是不定的，entroy(后)越小说明使用此特征划分得到的子集的不确定性越小（也就是纯度越高），因此 entroy(前) - entroy(后)差异越大，说明使用当前特征划分数据集D的话，其纯度上升的更快。而我们在构建最优的决策树的...
复制链接

扫一扫

专栏目录

AmorFatiall CSDN认证博客专家 CSDN认证企业博客

码龄6年

45: 原创

6万+: 周排名

102万+: 总排名

5万+: 访问

: 等级

993: 积分

107: 粉丝

23: 获赞

5: 评论

177: 收藏

私信

关注

热门文章

分类专栏

数据分析 1篇
python 13篇
机器学习 11篇
个人学习 36篇
数据集 2篇

最新评论

文本数据处理的终极指南【英文文本】
营320: 你好，我看都是对单个句子的词性标注和词形还原，如何对csv文件中的多条文本做词性标注和词形还原呢，麻烦帮忙解答一下吧（俺是个编程小白）
异常值检测——孤立森林(Isolation Forest)
天天睡: 你好，请问一下，我有1.8w个数据，有孤立森林检测时，要花3秒左右才能完成，有什么方法可以提高速度吗？
【NLP】tensorflow进行中文自然语言处理中的情感分析
菠萝啤YJB: 您好，请问是tensorflow2.0吗
Aspect Based Sentiment Analysis (ABSA)
AmberTYP: 请问有没有代码？可以共享一下吗？谢谢
ELMO模型
六七～: 你好，请问包括卷积层的完整的模型可以说下吗？数据卷积层的数据是四维的嘛？[batch_size,time_steps,max_word_length,char_length] ,然后对后面的两个维度进行卷积，输入LSTM层的维度最终回调整为[batch_size,time_steps,dim]??

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。