数学之美读书笔记

  1. 早期数字并没有书写的形式,而是掰手指,这就是我们今天使用十进制的原因。
  2. 古印度人发明了包括0在内的10个阿拉伯数字,只是欧洲人并不知道这些数字的真正发明人是印度人,而把功劳给了“二道贩子”阿拉伯人。阿拉伯数字或者说印度数字的革命性不仅在于它的简洁有效,而且标志着数字和文字的分离。这在客观上让自然语言的研究和数学在几千年里没有重复的轨迹,而且越走越远。
  3. 从象形文字到拼音文字是一个飞跃,因为人类在描述物体的方式上,从物体的外表到抽象的概念,同时不自觉地采用了对信息的编码。
  4. 哈夫曼编码(最短编码原理)的方法:赫夫曼编码的具体方法:先按出现的概率大小排队,把两个最小的概率相加,作为新的概率 和剩余的概率重新排队,再把最小的两个概率相加,再重新排队,直到最后变成1。每次相 加时都将“0”和“1”赋与相加的两个概率,读出时由该符号开始一直走到最后的“1”, 将路线上所遇到的“0”和“1”按最低位到最高位的顺序排好,就是该符号的赫夫曼编码。
    哈夫曼编码如何来实现数据的压缩和解压缩的呢?
    哈夫曼编码是一种变长编码.它根据字符出现的概率来构造平均长度最短的编码.换句话说如果一个字符在一段文档当中出现的次数多,它的编码就相应的短,如果一个字符在一段文档当中出现的次数少,它的编码就相应的长.当编码中,各码字的长度严格按照对应符号出现的概率大小进行逆序排列时,则编码的平均长度是最小的.
  5. 在罗马体系的文字中,总体来讲,常用字短,生僻字长。而在意型文字中,也是类似,大多数用字笔画少,而生僻字笔画多,这完全符合信息论中的最短编码原理。
  6. 由于古代记录载体(龟壳、石碑、竹简)资源有限,因此要惜墨如金,这就使得我们的古文非常简洁,但是非常难懂,而同时期的口语却和今天的白话差别不大,语句较长但是易懂。这种现象非常符合信息科学的一些基本原理,就是在通信时,如果信道较宽,信息不必压缩就可以直接传递;而如果信道很窄,信息在传递前就需要尽可能地压缩,然后在接收端进行解压缩。在古代,两个人讲话说得快是一个宽信道,无需压缩;书写来得慢是一个窄信道,需要压缩。将日常的白话口语写成精简的文言文本身是信道压缩的过程,而将文言文解释清楚是解压缩的过程。
  7. 虽然做事认真的犹太人要求在抄写《圣经》时,要虔诚并且打起十二分精神,尤其是每写到“上帝”(God和Lord)这个词时要去洗手祈祷,但是抄写错误还是难以避免。于是犹太人发明了一种类似于我们今天计算机和通信中校验码的方法。他们把每个希伯来字母对应于一个数字,这样每行字母加起来便得到一个特殊的数字,这个数字便成了这一行的校验码。
  8. 这些今天自然语言处理学者们研究的问题,我们的祖先在设计语言的时候其实已经遇到了,并且用类似的方法解决了,虽然他们的认识大多数是自发的,而不是自觉的。他们过去遵循的法则和我们今天探求的研究方法背后有着共同的东西,这就是数学规律。
  9. 语言的数学本质:任何一种语言都是一种编码的方式,而语言的语法规则是编解码的算法。
  10. 香农不必得什么图灵奖,作为信息论的发明人,他在科学史上的地位和图灵是相当的,而且通信领域的最高奖就是以他的名字发明的。
  11. 那时候学术界对人工智能和自然语言理解的普遍认识是这样的:要让机器完成翻译或者语音识别这样只有人类才能做的事情,就必须先让计算机理解自然语言,而做到这一点就必须让计算机有类似我们人类这样的智能。在人工智能领域,包括自然语言处理领域,后来把这样的方法论称作“鸟飞派”,也就是看看鸟是怎样飞的,就能模仿鸟造出飞机,而不需要了解空气动力学。事实上,我们知道怀特兄弟发明飞机靠的是空气动力学而不是仿生学。在机器翻译和语音识别领域之外的人依然错误地认为这两个应用是靠计算机理解了自然语言而完成的。事实上,它们全都靠得是数学,更准确地说是靠统计。
  12. 基于统计的方法的核心模型时通信系统加隐含马尔可夫模型,这个系统的输入和输出都是一维的符号序列,而且保持原有的次序,最早获得成功的语音识别是如此,接下来第二个获得成功的词性分析也是如此。但在句法分析和机器翻译中,这个方法就不太管用了。只有出现了基于有向图的统计模型才能很好地解决复杂的句法分析问题。
  13. 基于统计的自然语言处理方法,在数学模型上和通信是相通的,甚至就是相同的。
  14. 统计语言模型是今天所有自然语言处理的基础。
  15. 数学的精彩之处在于简单的模型可以干大事。
  16. 在数理统计中,我们之所以敢于用对采样数据的观察结果来预测概率,是因为有大数定理在背后做支持,他的要求是有足够的观测值。
  17. 训练统计语言模型的艺术就在于解决好统计样本不足时的概率估计问题。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值