关于信息论的压缩编码的个人思考

关于为什么一幅图像能够通过压缩来减小存储空间,为什么我们使用压缩软件就能够将大文件变小,很多人并不知道其中的原因,就连学过信息论和统计学的高材生也未必讲清楚其中的道理。我试图通过一个简单的例子,来阐述数据压缩的原理。

想像一下,我们买了1000个苹果,要将这1000个苹果按照颜色分为两类并做标记,有青的和红的,现在要求记号有两种,一种是一杠,一种是两杠,那么到底是哪个标记对应青苹果,哪个标记对应红苹果呢?

小明很聪明,他看到苹果大部分都是红的,小部分是青的,为了省事,因此红苹果画一杠,青苹果画两杠,这样做还大大减少的墨水的用量。大家可能觉得这有什么了不起的,我也知道这样做,就连没上过学的农民也知道这样做。可不要小看这个东西,这就是大名鼎鼎的‘霍夫曼码’,只有上大学的本科生或者密码学的人才学过。而教材只是把它用标准化的语言进行了整理。

因此,我们可以这样说,其实智慧和学历没有关系,科学家家只是将一些技巧用到了它的领域,而他用到的最本质最朴素的原理,如果讲清楚,种庄稼的老汉也一样懂,甚至比科学家更懂。而我们在上学过程中,教材和考试,往往并不注重知识本身的缘由,忽略了它是怎么来的。却常常让我们被动接受,然后套公式解题,再把它写到试卷上。谁记得清,写得多(很多时候真的是这样,写得多又认真的人分数最高),谁考试成绩就高,谁就能一步一步得到更好的教育资源,这没什么,然而这些“人才”最终又会成为教育从业者(例如教师)。试想这样一批人又会去教育我们的下一代。并且这样一些教育从业者以后又会成为人才的选拔者,比如教授选择研究生,招生办筛选学生材料,他们是什么样的人,当然也就更青睐什么样的人。我想,为什么很多外籍华人取得相当了不起的科学成就,也就不言而喻了。

再回到我们讨论的压缩编码中去,霍夫曼码体现了一个重要的思想,那就是非定长码,就是说事物在编码时,按照概率的大小排序,概率越大,对它的编码就越短,这样就可以节约存储空间。

霍夫曼编码(Huffman Coding)是一种编码方法,霍夫曼编码是可变字长编码(VLC)的一种。

霍夫曼编码使用变长编码表对源符号(如文件中的一个字母)进行编码,其中变长编码表是通过一种评估来源符号出现机率的方法得到的,出现机率高的字母使用较短的编码,反之出现机率低的则使用较长的编码,这便使编码之后的字符串的平均长度、期望值降低,从而达到无损压缩数据的目的。

那么,霍夫曼码是否是最优的编码,即这样做,能否达到最节约空间,答案是否定的,下面,就该信息论的提出者——香农登场了。

香农提出了一个重要的概念,即信源的熵(entropy),它是一种抽象,即把时间发生的概率度量为用多少比特才能去表示它。

H(x)=E[I(xi)]=E[log2 1/p(xi)]=-ξp(xi)log2 p(xi)(i=1,2,..n)

       

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

nwsuaf_huasir

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值