熵在信息论中代表: 随机变量不确定度的度量
熵越大,数据的不确定性越高
熵越小,数据的不确定性越低
信息熵
1、什么叫信息?
信息,指音讯、消息、通讯系统传输和处理的对象,泛指人类社会传播的一切内容。人通过获得、识别自然界和社会的不同信息来区别不同事物,得以认识和改造世界。在一切通讯和控制系统中,信息是一种普遍联系的形式。1948年,数学家香农在题为“通讯的数学理论”的论文中指出:“信息是用来消除随机不定性的东西”。创建一切宇宙万物的最基本单位是信息。
美国著名物理化学家吉布斯(Josiah Willard Gibbs)创立了向量分析并将其引入数学物理中,使事件的不确定性和偶然性研究找到了一个全新的角度,从而使人类在科学把握信息的意义上迈出了第一步。他认为“熵”是一个关于物理系统信息不足的量度。
人们根据信息的概念,可以归纳出信息是有以下的几个特点的:
-
消息发生的概率P(x)越大,信息量越小;反之,发生的概率越小,信息量就越大。可见,信息量(我们用I来表示)和消息发生的概率是相反的关系。
-
当概率为1时,百分百发生的事,地球人都知道,所以信息量为0。
-
当一个消息是由多个独立的小消息组成时,那么这个消息所含信息量应等于各小消息所含信息量的和。
根据这几个特点,如果用数学上对数函数来表示,就正好可以表示信息量和消息发生的概率之间的关系式:
I
=
−
l
o
g
a
(
P
(
x
)
)
。
I=-loga(P(x))。
I=−loga(P(x))。
给定离散随机变量 {\ displaystyle X}X,可能会有结果
x
1
,
.
.
.
,
x
n
{x_ {1},...,x_ {n}}
x1,...,xn,发生的可能性
P
(
x
1
)
,
.
.
.
,
P
(
x
n
)
P(x_{1}),...,P(x_{n})
P(x1),...,P(xn),的熵
X
X
X正式定义为:
H
(
X
)
=
−
∑
i
=
1
n
P
(
x
i
)
l
o
g
P
(
x
i
)
{{H}(X)= -\sum _ {i = 1} ^ {n} {{P}(x_ {i})\ log {P}(x_ {i}) }}
H(X)=−i=1∑nP(xi) logP(xi)
(归一化熵)
条件熵
在信息论中,条件熵描述了在已知第二个随机变量
X
X
X 的值的前提下,随机变量 {\displaystyle Y}Y 的信息熵还有多少。同其它的信息熵一样,条件熵也用Sh、nat、Hart等信息单位表示。基于
X
X
X 条件的
Y
Y
Y的信息熵,用
H
(
Y
∣
X
)
{H}(Y|X)
H(Y∣X) 表示。