信息论中entropy的概念和 algorithmatic information content(KCC)

entropy:熵,在宇称对称时递减的量.在信息论中有了新的定义.

在Data Compression(David Salmon)中称为surprises.衡量一段文章信息的多少.

我们有公式:

H = −s*SUM(1,n ; Pi *log2(Pi)),单位是比特位(bit),Pi是第i个符号出现的概率.s是一个时间单元传送的符号数目,H是一个时间单元传输的信息总量

-log2(Pi)是符号集某个符号包含的信息量,(书中此处有误).也就是说可以用-log2(Pi)长度的编码表示这个符号达到最大的压缩比,这就是熵编码,如huffman

SUM(1,n ; Pi *log2(Pi))为概率平均下来每一个符号的信息量.

此后,书中引出algorithmatic information content,又称Kolmogorov-Chaitin complexity(KCC),表示比特流的算法信息含量.什么意思呢,就是说用最少多长的代码可以输出这样的bit流.

显然,这也能表示信息的多少


我们再来回头看看

SUM(1,n ; Pi *log2(Pi)),

这是一个符号集符号利用的情况的表示.最好的利用情况是:所有Pi都相等.这个不难理解.任何时候都不知道下一个实什么.surprise是最大的.就是熵是最大的,信息量是最大的

那么一般的信息不会是符号平均分布的,就有一个差,这个差叫redundancy(冗余),当redundancy=0时.ok,信息被完全压缩了.概率分布如何统计.这个是很难说的.比较复杂.可以想象人的记忆,是随压缩进程改变的.

再来分析KCC和香农的熵...

终于发现一具非常关键的话:

Shannon’s information theory defines the amount of information in a string by considering the amount of surprise this information contains when revealed.

Algorithmic information content, on the other hand, measures information that has already been revealed.

然后有了重要的定理:

the sum of Shannon’s information and the KCC is a const value for a certain text .

我们知道熵的递减和能量的守恒.和上面在压缩的时候出现的情况竟然如此相似:

熵在压缩信息是递减.而KCC规律统计在递增.最后总和不变.信息量守恒!






评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值