信息怎样衡量多少?

​疑问

我们常常说信息很多,或者信息较少,但却很难说清楚信息到底有多少。你跟你暗恋许久的女生表白,焦急地等待她的回复,那她这让你牵肠挂肚的回复里边包含的信息量有多少呢?一本50多万字的《史记》又包含了多少信息量?

 

介绍

关于信息怎么衡量这个问题几千年来都没有人给出答案,直到1948年,香农(Claude Shannon)在他著名的论文“通信的数学原理”(A Mathematic Theory of Communication)中提出了“信息熵”的概念后才解决了信息的度量问题。一条信息的信息量跟这个信息能解答的问题的不确定性有关。一条信息能解答的问题越不确定,那它包含的信息量就越大,即熵越大。比如猜一个骰子最后向上的那面是多少点的游戏,这个游戏可能出现的情况有6种(骰子有6面),但是猜32支球队中谁最终获得世界杯冠军的游戏则有32种可能。所以“哪支球队最终获得世界杯冠军”的信息量比“骰子最后向上的那面是多少点”的信息量大,因为前者是从32种可能中确定了答案,后者是从6种可能中确定了答案。

 

推导

假设我错过了某年的世界杯比赛,现在要去问一个知道比赛结果的朋友“哪支球队最终获得世界杯冠军”?他要求我猜,猜完会告诉我是对还是错,但我每猜一次就要给他一块钱。那么我需要付给他多少钱才能知道谁是冠军?我可以把球队编号,从1到32,然后问“冠军的球队在1-16号中吗?”。假如他告诉我对了,我就问“冠军的球队在1-8号中吗?”。如果他告诉我不对,我就自然就知道冠军队在9-16号中。这样我只需要猜5次就可以知道哪支球队是冠军了。所以,“谁是世界杯冠军”这个问题的答案的信息量只值5块钱。香农用“比特”(bit)来作为信息量的单位。像上边“谁是世界杯冠军”这个问题的答案的信息量是5比特。如果是64支球队,“谁是世界杯冠军”这个问题的答案的信息量就是6比特,因为要多猜一次。

 

对足球了解的朋友看到这有疑问了,他觉得他不需要5次来猜。因为他知道巴西,西班牙,德国等这些强队夺冠的可能性比日本,韩国等球队大的多。所以他可以先把强队分成一组,剩下的其它队伍一组。然后问冠军是否在夺冠热门组里边。重复这样的过程,根据夺冠的概率对剩下的候选球队分组,直至找到冠军队,这样也许三次或四次就猜出结果了。因此,当每支球队夺冠的可能性(概率)不一样时,“谁是世界杯冠军”这个问题的答案的信息量比5比特少。

 

香农指出,“谁是世界杯冠军”这个问题的答案的信息量是:

H = -(p1*log(p1) + p2 * log(p2) + ... + p32 * log(32))

其中log是以2为底数的对数,以下本文中的log都是以2为底的对数,下边不再特别说明。

 

这就是衡量信息量多少的公式,它的单位是比特。之所以称为熵是因为它的定义形式和热力学的熵有很大的相似性。对于一个随机变量X的信息熵的定义公式为:

H(X)=-∑P(xi)logP(xi)

 

其中xi是随机变量X的可能取值。

 

运用

那你刚跟你暗恋许久的女生表白,焦急地等待她的回复,那她的回复信息量有多少?那个女生要么回复接受(恭喜你脱离单身了),要么回复你是好人(又收入一张好人卡,),所以只有两种可能,假设你一点都不确定那个女生的到底接不接受,所以两种可能的概率都是相同的,即都是0.5。根据信息熵的公式得:

H = -(log(0.5)*0.5 + log(0.5)*0.5) = -(-1 * 0.5 + -1 * 0.5) = -(-0.5 + -0.5) = 1

所以女生告诉接不接受的答案的信息量是1比特,虽然信息量很小,但却很重要,因为它决定着你是否可以迎娶白富美,变成高富帅(变成高富帅最好还是靠自己),登上人生的高峰。

 

上边关于“跟你暗恋女生表白接不接受”的答案的信息量是1比特的条件是在你一点都不确定那个女生的到底接不接受的情况。假设你已经约了人家吃了几次饭,又约了人家看了几次电影,每次彼此都很开心。这时你觉得女生接受的概率是比较大的,比如有80%的可能性会接受,此时关于“跟你心爱女生表白接不接受”的答案的信息量就等于:

H = -(log(0.8)*0.8 + log(0.2)*0.2) = -(-0.32 * 0.8 + -2.32 * 0.2) = -(-0.256 + -0.464) = 0.72

这时比你一点都不确定那个女生的到底接不接受的情况时信息量少了。跟上边当一个人知道哪几支球队是强队时的情况是一样的。

 

定义

信息熵的数学公司定义是:

H(X)=-∑P(xi)logP(xi)

那一本50万字的中文书的信息量有多少呢?常用汉字是7000个左右,假设每个字等概率,那么大约需要13比特来表示一个汉字。但是汉字的使用是不平衡的。实际上,前10%的汉字占常用文本的95%以上。因此即使不考虑上下文的相关性,而只考虑每个汉字的独立概率,每个汉字的信息熵大概是8-9比特。再考虑上下文相关性,每个汉字的信息熵就只有5比特左右。所以50万字的中文书的信息量大概是250万比特。(上下文相关性是指出现一个字后,后边出现某些字的概率会大一些,出现某些字的概率会小一些。比如“朋”这个字后出现“友”的概率就比较大,而“朋”字后边出现“们”的字的概率就几乎为0)

 

意义

信息熵不仅是对信息的量化度量,还是整个信息论的基础。它对于通信,数据压缩,自然语言处理都有很强的指导意义。

 

更多最新文章,请扫描下边二维码,关注公众号:学习者说

公众号二维码

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值