信息论中entropy的概念和 algorithmatic information content(KCC)

zjmwqx

于 2012-03-06 10:17:36 发布

阅读量713

点赞数

分类专栏：压缩算法及思想文章标签： compression string 算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zjmwqx/article/details/7323466

版权

压缩算法及思想专栏收录该内容

1 篇文章 0 订阅

订阅专栏

entropy:熵,在宇称对称时递减的量.在信息论中有了新的定义.

在Data Compression(David Salmon)中称为surprises.衡量一段文章信息的多少.

我们有公式:

H = −s*SUM(1,n ; Pi *log2(Pi)),单位是比特位(bit),Pi是第i个符号出现的概率.s是一个时间单元传送的符号数目,H是一个时间单元传输的信息总量

-log2(Pi)是符号集某个符号包含的信息量,(书中此处有误).也就是说可以用-log2(Pi)长度的编码表示这个符号达到最大的压缩比,这就是熵编码,如huffman

SUM(1,n ; Pi *log2(Pi))为概率平均下来每一个符号的信息量.

此后,书中引出algorithmatic information content,又称Kolmogorov-Chaitin complexity(KCC),表示比特流的算法信息含量.什么意思呢,就是说用最少多长的代码可以输出这样的bit流.

显然,这也能表示信息的多少

我们再来回头看看

SUM(1,n ; Pi *log2(Pi)),

这是一个符号集符号利用的情况的表示.最好的利用情况是:所有Pi都相等.这个不难理解.任何时候都不知道下一个实什么.surprise是最大的.就是熵是最大的,信息量是最大的

那么一般的信息不会是符号平均分布的,就有一个差,这个差叫redundancy(冗余),当redundancy=0时.ok,信息被完全压缩了.概率分布如何统计.这个是很难说的.比较复杂.可以想象人的记忆,是随压缩进程改变的.

再来分析KCC和香农的熵...

终于发现一具非常关键的话:

Shannon’s information theory deﬁnes the amount of information in a string by considering the amount of surprise this information contains when revealed.

Algorithmic information content, on the other hand, measures information that has already been revealed.

然后有了重要的定理:

the sum of Shannon’s information and the KCC is a const value for a certain text .

我们知道熵的递减和能量的守恒.和上面在压缩的时候出现的情况竟然如此相似:

熵在压缩信息是递减.而KCC规律统计在递增.最后总和不变.信息量守恒!

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。