1、信息量
信息奠基人香农(Shannon)认为“信息是用来消除随机不确定性的东西”,也就是说衡量信息量的大小就是看这个信息消除不确定性的程度
例如,“太阳从东边升起”,这条信息并没有减少不确定性,因为太阳肯定是从东边升起的,这是一句废话,信息量为0。再例如,“2018年中国队成功进入世界杯”,从直觉上来看,这句话具有很大的信息量。因为中国队进入世界杯的不确定性因素很大,而这句话消除了进入世界杯的不确定性,所以按照定义,这句话的信息量很大
当不可能事件发生时,香农信息量为无穷大。香农信息量用来度量不确定性的大小
根据上述可总结如下:信息量的大小与信息发生的概率成反比。概率越大,信息量越小。概率越小,信息量越大
设某一事件发生的概率为P(x),则其信息量表示为
I
(
x
)
=
−
ln
P
(
x
)
I(x)=-\ln P(x)
I(x)=−lnP(x)
2、信息熵
熵(Entropy)是1854年由克劳休斯提出的一个用来度量体系混乱程度的单位,并阐述了热力学第二定律熵增原理:在孤立系统中,体系与环境没有能量交换,体系总是自发的向混乱度增大的方向变化,使整个系统的熵值越来越大
熵越大,表征的随机变量的不确定度越大,其含有的信息量越多
信息熵也被称为熵,用来表示所有信息量的期望。期望是每次试验中可能结果的概率乘以其结果的总和,则信息量的熵可表示为
H
(
X
)
=
−
∑
i
=
1
m
P
(
x
i
)
ln
P
(
x
i
)
X
=
x
1
,
x
2
,
.
.
.
,
x
m
H(X)=-\sum_{i=1}^mP(x_i)\ln P(x_i)\;\;\;\;\;X=x_1,x_2,...,x_m
H(X)=−i=1∑mP(xi)lnP(xi)X=x1,x2,...,xm
例如,对于0-1分布的问题,由于其结果只用两种情况:发生与不发生,设某一件事情发生的概率为P(x) ,则该事情不发生的概率为1−P(x) ,则其信息熵为
H
(
X
)
=
−
[
P
(
x
)
ln
P
(
x
)
+
(
1
−
P
(
x
)
)
ln
(
1
−
P
(
x
)
)
]
H(X)=-[P(x)\ln P(x) + (1-P(x))\ln (1-P(x))]
H(X)=−[P(x)lnP(x)+(1−P(x))ln(1−P(x))]
3、条件熵
条件熵是指在给定随机变量X发生的前提下,随机变量Y的不确定性,即
H
(
H
∣
X
)
=
∑
i
=
1
n
P
(
X
=
x
i
)
H
(
Y
∣
X
=
x
i
)
=
−
∑
i
=
1
n
P
(
x
i
)
∑
j
=
1
m
P
(
y
j
∣
x
i
)
ln
P
(
y
j
∣
x
i
)
=
−
∑
i
=
1
n
∑
j
=
1
m
P
(
x
i
y
j
)
ln
P
(
y
j
∣
x
i
)
=
−
∑
x
,
y
P
(
x
y
)
ln
P
(
y
∣
x
)
\begin{aligned} H(H|X)&=\sum_{i=1}^{n}P(X=x_i)H(Y|X=x_i) \\ &=-\sum_{i=1}^{n}P(x_i)\sum_{j=1}^{m}P(y_j|x_i)\ln P(y_j|x_i) \\ &=-\sum_{i=1}^{n}\sum_{j=1}^{m}P(x_iy_j)\ln P(y_j|x_i) \\ &=-\sum_{x,y}^{}P(xy)\ln P(y|x) \end{aligned}
H(H∣X)=i=1∑nP(X=xi)H(Y∣X=xi)=−i=1∑nP(xi)j=1∑mP(yj∣xi)lnP(yj∣xi)=−i=1∑nj=1∑mP(xiyj)lnP(yj∣xi)=−x,y∑P(xy)lnP(y∣x)
上式表示Y的条件概率分布的熵对X的期望。其物理意义为:在得知某一确定信息的基础上获取另外一个信息时所获得的信息量,用来衡量在已知随机变量X的条件下,随机变量Y的不确定性
当信息熵和条件熵是由训练数据估计而来时,那么对应的熵和条件熵称为经验熵和经验条件熵
4、信息增益(互信息)
互信息是信息论里一种有用的信息度量方式,它可以看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不肯定性
信息增益表示信息X使信息Y的不确定性减少的程度,即信息X让信息Y的不确定性降低
在条件熵中我们发现相关的信息可以消除不确定性,所以需要一个度量相关性的变量:信息增益(互信息)
I
(
X
,
Y
)
=
H
(
X
)
−
H
(
Y
∣
X
)
=
H
(
Y
)
−
H
(
X
∣
Y
)
I(X,Y)=H(X)-H(Y|X)=H(Y)-H(X|Y)
I(X,Y)=H(X)−H(Y∣X)=H(Y)−H(X∣Y)
上式的物理意义是,某一确定信息与在此基础上获取另外一个信息时所需要的增量信息量。当X与Y完全不相关时, I ( X , Y ) I(X,Y) I(X,Y)=0
5、信息增益比
信息增益的大小是相对于训练数据而言的,并没有绝对意义。当某个特征的取值种类非常多时,会导致该特征对训练数据的信息增益偏大,反之,信息增益会偏小。使用信息增益比可以对这一问题进行校正。这是特征选择的另一准则
特征A对训练数据集D的信息增益比定义为:其信息增益
G
(
D
,
A
)
G(D,A)
G(D,A)与训练数据集D关于特征A值的熵
H
A
(
D
)
H_A(D)
HA(D)之比,即
G
R
(
D
,
A
)
=
G
(
D
,
A
)
H
A
(
D
)
G_R(D,A)=\frac{G(D,A)}{H_A(D)}
GR(D,A)=HA(D)G(D,A)
其中
H
A
(
D
)
=
−
∑
i
=
1
n
∣
D
i
∣
∣
D
∣
ln
∣
D
i
∣
∣
D
∣
H_A(D)=-\sum_{i=1}^{n}\frac{|D_i|}{|D|}\ln \frac{|D_i|}{|D|}
HA(D)=−i=1∑n∣D∣∣Di∣ln∣D∣∣Di∣
6、基尼指数
基尼制数(Gini)是衡量数据集纯度的一种方式。在分类问题中,假设有K个类,样本点属于第k类的概率为
p
k
p_k
pk,则概率分布的基尼指数定义为
G
i
n
i
(
D
)
=
∑
k
=
1
K
p
k
(
1
−
p
k
)
=
1
−
∑
k
=
1
K
p
k
2
Gini(D)=\sum_{k=1}^{K}p_k(1-p_k)=1-\sum_{k=1}^{K}p_k^2
Gini(D)=k=1∑Kpk(1−pk)=1−k=1∑Kpk2
其中,
p
k
p_k
pk=
∣
C
k
∣
∣
D
∣
\frac{|C_k|}{|D|}
∣D∣∣Ck∣表示数据集中第k类样本的比例,因此
G
i
n
i
(
D
)
=
1
−
∑
k
=
1
K
(
∣
C
k
∣
∣
D
∣
)
2
Gini(D)=1-\sum_{k=1}^{K}\left(\frac{|C_k|}{|D|}\right)^2
Gini(D)=1−k=1∑K(∣D∣∣Ck∣)2
基尼指数的物理意义是,从数据集D中随机抽取两个样本,它们类别不一样的概率。因此基尼指数越小表明数据集D中同一类样本的数量越多,其纯度越高
这样,将数据集按属性a进行划分后的基尼指数为
G
i
n
i
(
D
,
a
)
=
∑
v
=
1
V
∣
D
v
∣
∣
D
∣
G
i
n
i
(
D
v
)
Gini(D,a)=\sum_{v=1}^{V}\frac{|D^v|}{|D|}Gini(D^v)
Gini(D,a)=v=1∑V∣D∣∣Dv∣Gini(Dv)
参考文章:
https://zhuanlan.zhihu.com/p/383856676
https://www.cnblogs.com/rezero/p/13057584.html
https://www.cnblogs.com/xiaofeiIDO/p/11947380.html
https://www.showmeai.tech/article-detail/164