ps:此博主要是为了自已快速回想起一些知识点,为秋招准备
一、熵的相关概念
概念一:信息量
信息量:
p x i p_{x_{i}} pxi是概率,从上面这个式子可以得知信息量与概率成反比,信息量越大,说明这个事情发生的概率越小
(在时间序列分析当中,确定阶数p的时候,经常用到的准则是选择使得AIC或者BIC最小的p,贝叶斯信息准则越小,也就是包含的信息量越小,也就该阶数p发生的概率越大)
结论:信息量越小,概率值越大
概念二:信息熵,简称熵
通俗描述就是信息量的数学期望叫做熵
根据熵的定义可以知道,当p越大,
l
o
g
2
p
(
x
i
log_{2}p(x_{i}
log2p(xi越大,那么这两者的乘积越大,求和也越大,再取负数就越小了。
(当事件的概率分布为均匀分布时,熵最大)
结论:熵衡量了随机变量的不确定性:熵越小,不确定性越小,概率越大,信息量越小;熵越大,不确定性越大,概率越小,信息量越大
概念三:交叉熵,又称联合熵,衡量的是两个概率分布之间的关系
其中p(i)时是真实分布,q(i)是非真实分布,在给定真实分布下,使用非真实分布所指定的策略消除系统不确定性需要付出的努力大小,我们希望付出的努力越小越好,越小意味着非真实分布于真实分布的差距越小。
(逻辑回归确定目标函数的原理是让对数似然函数最大,对数似然函数的表达式其实就是交叉熵函数,而对数似然函数越大意味着损失的越小,所以我们常常称要让交叉熵损失函数最小)
概念四:条件熵
条件熵 H(X|Y) 表示在已知随机变量Y的条件下,随机变量 X 的不确定性。
熵是数学期望,所以条件熵是随机变量
x
i
∣
y
x_{i}|y
xi∣y的包含的信息量
−
l
o
g
2
p
(
x
i
∣
y
)
-log_{2}p(x_{i}|y)
−log2p(xi∣y)对应的数学期望,该信息量的概率分布为p(x_{i}|y),可以进行化简
也即是条件熵等于交叉熵-单独的熵
概念五:互信息(信息增益)
定义:已知一个变量时,另一个变量不确定性的减少程度
I
(
X
,
Y
)
=
H
(
Y
)
−
H
(
Y
∣
X
)
=
H
(
X
)
−
H
(
X
∣
Y
)
I(X,Y)=H(Y)-H(Y|X)=H(X)-H(X|Y)
I(X,Y)=H(Y)−H(Y∣X)=H(X)−H(X∣Y)
如果两个随机变量之间是相互独立的,说明互信息为0,也就是
H
(
Y
)
=
H
(
Y
∣
X
)
H(Y)=H(Y|X)
H(Y)=H(Y∣X)
概念六:基尼系数
在样本集合中一个随机选中的样本被分错的概率。
结论:基尼系数越小,说明被错分的概率越小,样本集合的纯度较高,当集合中所有样本为一个类时,基尼指数为0.