9-信息熵与基尼系数

最新推荐文章于 2024-08-08 07:40:37 发布

大奸猫

最新推荐文章于 2024-08-08 07:40:37 发布

阅读量2.9w

点赞数 8

分类专栏：机器学习文章标签：信息熵基尼系数

本文链接：https://blog.csdn.net/yeziand01/article/details/80731078

版权

25 篇文章 1 订阅

订阅专栏

一、基尼系数是什么？

1)定义

下面是摘自李航《统计学习方法》中基尼系数的定义，非常清晰。

2)基尼系数有什么意义？
我们可以先来看一组数据

由上图我们可以观察到，类别的个数是方案一(2个) < 方案三(3个) < 方案四(4个) ，基尼系数为方案一 < 方案三 < 方案四；而方案一和方案二类别个数相同，但方案一的类别集中度比方案二要高，而基尼系数为方案一 < 方案二

基尼系数的特质是：

1) 类别个数越少，基尼系数越低;

2)类别个数相同时，类别集中度越高，基尼系数越低。

当类别越少，类别集中度越高的时候，基尼系数越低；当类别越多，类别集中度越低的时候，基尼系数越高。

【类别集中度是指类别的概率差距，0.9+0.1的概率组合，比起0.5+0.5的概率组合集中度更高】

二、熵
1）熵是什么？
下面是摘自李航《统计学习方法》中熵的定义。

2）怎样理解熵的意义？
我们可以先来看一组数据