1.熵的链式法则:H(XY) = H(X) + H(Y|X)=H(Y) + H(X|Y)
2.非负性
3.对称性:消息的数目一致,概率分布一致,那么熵就相等。
4.扩展性:,即极小概率事件对熵是几乎没有影响的
5.独立界:
证:
6.极值性:H(p1,p2,...,pq)<=logq
证:首先提出一个基本不等式
,后面是将logq做一个变形,pi求和的总概率是1,所以不变。原式=,由上述不等式得到(将式子展开算一下就可以得到),p1=p2=...=pq时取到等号。
这个定理也成为最大离散熵定理,即信源中各事件出现概率趋于均匀时,信源的平均不确定性最大。(数据压缩的理论依据之一)。这是什么意思呢?为什么说平均不确定性最大就可以达到数据压缩?我们知道不确定性越大,所携带的信息量就越多。假如一件事是确定的,比如太阳从东方升起这件事就毫无信息量可言。因此,平均不确定性最大代表着平均每个符号所携带的信息量是最多的,从而达到数据压缩。