1.定义
对于一个具有多种可能情况的随机变量
X
X
X,我们需要确定其属于哪种情况,此过程中的不确定程度就是信息熵。(比如一道四个选项的单选题,我们随机选择其中一个,但又不确定选的对不对,那么这种不确定程度就是熵。)
若我们提前知道一些信息(比如这道题肯定不选C,D),那么四选一变成二选一,不确定程度(熵)降低。能消除熵的的事物就是信息。因此信息包含这些选择:正确调整可能情况的概率(有%50可能选C)、直接给出答案、正确排除干扰项。因此:
消
除
熵
≡
获
取
信
息
消除熵\equiv 获取信息
消除熵≡获取信息
2.信息是如何计算的
信息和质量一样属于物理量,那么我们是如何测量质量的呢?
确定一个物理量,首先要找到其参照物。比如确定一个物体B的质量,我们先找一个1kg的物体A作参照,B相当于多少个A就有多少千克,即
B
=
n
A
B=nA
B=nA。
确定B种等概率情况的信息量,则需要选择一个参照随机变量(A种等概率情况),当参照的随机变量是类似于抛硬币这样有两种等概率情况时,测量的信息量的单位就叫比特(bit),但B和A不是线性关系,而是指数关系(抛掷三枚硬币能产生八种等概率情况)。
B
=
A
n
,
n
=
log
A
B
,
参
照
物
为
硬
币
时
A
=
2
B=A^n,n=\log _AB,参照物为硬币时A=2
B=An,n=logAB,参照物为硬币时A=2以上为描述等概率的情况。当不是等概率情况(比如
p
(
A
)
=
p
(
B
)
=
p
(
C
)
=
1
6
,
p
(
D
)
=
1
2
p(A)=p(B)=p(C)=\frac{1}{6},p(D)=\frac{1}{2}
p(A)=p(B)=p(C)=61,p(D)=21)时,就需要根据每种情况的信息量对整体信息量求期望。每种情况的信息量如何计算呢?
比如说件事件A发生概率为
1
6
\frac{1}{6}
61,那么我们就需要从6个等概率事件中确定情况。因此概率的倒数可以看做等概率情况的个数,也可以看做该事件的信息量。
n
A
=
log
1
p
(
A
)
n_A=\log \frac{1}{p(A)}
nA=logp(A)1这样我们就得到了信息熵的计算公式:
h
(
x
)
=
−
∫
f
(
x
)
log
f
(
x
)
d
x
h(x)=-\int f(x)\log f(x)dx
h(x)=−∫f(x)logf(x)dx
3.参考
https://www.bilibili.com/video/BV1jt411b7o3/spm_id_from=333.788.recommend_more_video.-1