entropy:熵,在宇称对称时递减的量.在信息论中有了新的定义.
在Data Compression(David Salmon)中称为surprises.衡量一段文章信息的多少.
我们有公式:
H = −s*SUM(1,n ; Pi *log2(Pi)),单位是比特位(bit),Pi是第i个符号出现的概率.s是一个时间单元传送的符号数目,H是一个时间单元传输的信息总量
-log2(Pi)是符号集某个符号包含的信息量,(书中此处有误).也就是说可以用-log2(Pi)长度的编码表示这个符号达到最大的压缩比,这就是熵编码,如huffman
SUM(1,n ; Pi *log2(Pi))为概率平均下来每一个符号的信息量.
此后,书中引出algorithmatic information content,又称Kolmogorov-Chaitin complexity(KCC),表示比特流的算法信息含量.什么意思呢,就是说用最少多长的代码可以输出这样的bit流.
显然,这也能表示信息的多少
我们再来回头看看
SUM(1,n ; Pi *log2(Pi)),
这是一个符号集符号利用的情况的表示.最好的利用情况是:所有Pi都相等.这个不难理解.任何时候都不知道下一个实什么.surprise是最大的.就是熵是最大的,信息量是最大的
那么一般的信息不会是符号平均分布的,就有一个差,这个差叫redundancy(冗余),当redundancy=0时.ok,信息被完全压缩了.概率分布如何统计.这个是很难说的.比较复杂.可以想象人的记忆,是随压缩进程改变的.
再来分析KCC和香农的熵...
终于发现一具非常关键的话:
Shannon’s information theory defines the amount of information in a string by considering the amount of surprise this information contains when revealed.
Algorithmic information content, on the other hand, measures information that has already been revealed.
然后有了重要的定理:
the sum of Shannon’s information and the KCC is a const value for a certain text .
我们知道熵的递减和能量的守恒.和上面在压缩的时候出现的情况竟然如此相似:
熵在压缩信息是递减.而KCC规律统计在递增.最后总和不变.信息量守恒!