经济学-基尼指数

最新推荐文章于 2024-08-22 22:14:51 发布

小猿取经-Egon林海峰

最新推荐文章于 2024-08-22 22:14:51 发布

阅读量758

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46032351/article/details/104702341

版权

机器学习专栏收录该内容

90 篇文章 8 订阅

订阅专栏

文章目录

基尼指数
基尼指数简介

基尼指数

基尼指数简介

基尼指数（gini coefficient）代表了模型的不纯度，基尼指数越小，则不纯度越低；基尼指数越大，则不纯度越高，这和信息增益比是相反的。

假设一个训练集有 $K$ 个类别，样本属于第 $k$ 个类别的概率为 $p_k$ ，则它的基尼指数为
$\sum_{k=1}^K p_k (1-p_k) = 1 - \sum_{k=1}^K p_k^2$
如果是二分类问题，其中一个分类的概率为 $p$ ，则它的基尼指数为
$G (p) = 2 p (1 - p)$
对于某一个训练集 $D$ ，假设训练集有 $K$ 个类别，并且第 $k$ 个类别有 $C_k$ 个样本，则 $D$ 的基尼指数为
$\sum_{k=1}^K ({\frac {|C_k|} {|D|}})^2$
对于某一训练集 $D$ ，如果根据特征 $T$ 的某个特征值是否等于 $t$ 把 $D$ 分成两个子集 $D_1$ 和 $D_2$
$D_1 = \{(x,y)\in{D}|A(x)=t\},\quad D_2 = D-D_1$
则 $D$ 的基尼指数为
$({\frac {|D_1|} {|D|}})G(D_1) + ({\frac {|D_2|} {|D|}})G(D_2)$
基尼指数 $G (D)$ 表示 $D$ 的不确定性，基尼指数 $G (D, A)$ 表示经过 $T = t$ 分割后 $D$ 的不确定性。基尼指数越大，样本集合的不确定性也就越大，不纯度越高。

小猿取经-Egon林海峰

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。