《数学之美》阅读笔记


本文主要内容基于《数学之美》,仅用作个人学习积累之用,不做任和商业用途。
数学之美主要介绍了通信、自然语言处理中的一般模型,以及身处其中的优秀科学家工程人员。作者通过一篇篇独立成篇的小博文,为我们呈现了一个充满生机与活力的数学世界。

第1章 文字和语言 VS 数字和信息

不同的文字系统在记录信息上的能力是等价的。

罗塞塔的故事给作者启发

  1. 信息的冗余是信息安全的保障。
  2. 语言的数据,我们称之为语料,尤其是双语或者多语的对照语料对翻译至关重要,它是我们从事机器翻译研究的基础。

第 2 章 自然语言处理

第 3 章 规则与统计

基于规则的自然语言处理算法遇到了瓶颈:无法穷尽所有规则与识别效率低。随着数据量的积累和计算速度的提高,基于统计的自然语言处理模型大放异彩。

第 4 章 谈谈分词

词是自然语言处理的最小单位,分词的效果直接影响自然语言处理结果的好坏。分词问题已经得到了很好的解决

第 5 章 隐含马尔科夫链

随机变量到随机过程的认识进步。
Hidden-Markov
自然语言处理与通信的解码具有一样的数学模型。

第 6 章

EM与维特比算法(学习算法)

第 7 章 贾里尼克和现代语言处理

讲了贾里尼克的成长科研经历与成就。
少年时读太多的书的人并不一定比少年时不读很多书的人在今后有更大成就。 成年后的孩子理解力更强,很容易追上年少的努力。
贾里尼克的执教理念很吸引人,当然他本人也很有趣,为人公正。

第 8 章 简单之美

布尔运算与搜索引擎
做学术研究做技术也要注重习术求道。

第 9 章 图论和网络爬虫

离散数学是当代数学的重要分支,也是计算机科学的重要基础。它包括数理逻辑、集合论、图论和近世代数四个分支。

普鲁士 戈底斯堡 七座桥 俄罗斯 加里宁格勒

计算机科学理论基础 算法能力 工程素养
数学的作用难以估量

第 10 章 PageRank

谷歌的民主表决式网页排名技术
PageRank算法

第 11 章 如何确定网页和查询的相关性

自我洗脑
TF-IDF 斯巴克琼斯,萨尔顿。

第 12 章 有限状态机和动态规划

地图和本地搜索的核心技术
辛格 缔造了Google的AK4-7
飞机不必像鸟一样飞
工程上的简单哲学

第 13 章 谷歌AK-47的设计者

一个好的算法应该向AK-47那样:简单有效可靠性好,而不是故弄玄虚。

第 14 章 余弦定理和新闻的分类

文本分类迭代和聚合。
美国人总是倾向于用机器代替人工完成任务。虽然短时间内要做一些额外的工作,但是从长远看可以节省很多时间和成本。磨刀不误砍柴工。

第 15 章 矩阵运算和文本处理中的两个分类问题

第 17 章 由电视剧《暗算》所想到的——谈谈密码学的数学原理

凯撒密码
统计独立
公开密钥
密码有效性
密码中的术:各种加密算法
密码中的道:统计独立,任何一个报文不提供新的信息量。

第 18 章 闪光的不一定是金子

谈谈搜索引擎反作弊问题和搜索结果的权威性问题
狐狸穿过草丛还是会留下痕迹和气味的,这就给了猎人追捕他们的线索。
噪音存在于任何通信系统,而好的通信系统需要能过滤掉噪音,还原真实的信号。搜索引擎是一个特殊的通信系统,免不了会有噪音,反作弊和确定权威性就是去噪音的过程。而这一系列过程的背后,依靠的是数学的方法。
可以的发展来源于需求,需求推动人类观察实践思索,然后积累产生科学技术。
1 一个正确的数学模型应当在形式上是简单的。
2.一个正确的模型一开始可能还不如一个精雕细琢过的错误模型来的准确,但是,如果我们认为大方向是对的,就应该坚持下去。
3.大量准确的数据对研发很重要。
4. 正确的模型也可能受噪音干扰,而显得不准确;这是不应该用一种凑合的修正方法加以弥补,而是要找到噪音的根源,这也许能通往重大的发现。

第19 章

第 20 章 不要把鸡蛋放在一个篮子里

——最大熵模型
对于一个随机事件的概率分布进行预测时,我们的预测应当满足全部已知条件,而对未知条件不要做任何主观假设。在这种情况下,概率分布最均匀,风险最小。

第 21 章 拼音输入法的数学原理

和任何事物的发展一样,这个螺旋式的回归不是简单的重复,而是一种升华。
输入法输入汉字的快慢取决于汉字编码的平均长度,通俗点讲,就是用击键次数乘以寻找这个键的所需时间。

1 输入法与编码

将一个方块形状的汉字输入到计算机中,本质上是一个将认为约定的信息记录编码——汉字,转换成计算机约定的编码的信息转换过程。
本书一开头就强调把语言和文字作为通信的编码手段,一个重要的目的是帮助思维和记忆。如果一个输入法中断了人们的思维过程买酒喝人的自然行为不相符合。认知科学已经证明,人一心无二用。
拼音输入法优点:
(1)不需要专门学习;
(2)输入自然,不会中断思维,也就是说找每个键的时间非常短;(这种自然性是因为大家长时间接受教育的结果
(3)因为编码长,有信息冗余量,容错性好。

2 输入一个汉字需要敲多少个键——谈谈香农第一定理

每个汉字的编码长度不小于汉字的信息熵。
词,句,上下文等增大字典库的做法与地心说模型不断大圆套小圆的做法类似,是在不断地接近真理。

3 拼音转汉字的算法

拼音转汉字的算法和在导航中寻找最短路径的算法相同,都是动态规划,其实可以将汉语输入看成一个通信问题,而输入法则是一个将拼音串变到汉字串的转换器。
数学的妙处在于它的每一个工具都具有相当的普遍性,在不同的应用中都可以发挥很大的作用。

4 延伸阅读:个性化的语言模型

5 小结

汉字的输入过程本身就是任和计算机的通信,好的输入法会自觉或者不自觉地遵循通信的数学模型。当然要做出最有效的 输入法,应当自觉使用信息论做指导。

第 22 章 自然语言处理的教父马库斯和他的优秀弟子们

1 教父马库斯

马库斯 语料库 性格迥异的学生 远见卓识的管理者 建立几个最好的实力最强的系,而不是求全

2 从宾夕法尼亚大学走出的精英们

2.1 柯林斯:追求完美

文法分析器 论文写的像小说一样

2.2 布莱尔:简单才美

科林斯 务于精纯的精深专才
布莱尔 观其大略的通才

第 23 章 布隆过滤器

1 布隆过滤器的原理

在日常生活或工作中,包括开发软件时,经常要判断一个元素是否在一个集合中。
布隆过滤器的好处在于快速、省空间,但是有一定的误识别率。

2 延伸阅读:布隆过滤器的误识别问题

第 24 章 马尔科夫链的扩展——贝叶斯网络

1 贝叶斯网络

Markov Chain
贝叶斯网络结构比马尔科夫链复杂
贝叶斯网络是马尔科夫链的扩展,马尔科夫链是贝叶斯网络的特例。

比尔默和茨威格共同发表的论文:http://ssli.ee.washington.edu/~bilmes/pgs/sort_date.html
斯坦福大学科勒(Daphne Koller)教授写的巨著Probabilistic Graphical Models:Principles and Techniques。
从数学的层面来讲,贝叶斯网络是一个甲醛的有向图,是马尔科夫链的扩展。而从认识论的层面看,贝叶斯网络克服了马尔科夫链那种机械的线性约束,它可以把任何有关联的事件统一到它的框架下面。因此,贝叶斯网络有很多应用,除了前面介绍的文本分类和概念抽取外,在生物统计、图像处理、决策支持系统和博弈论中都有广泛应用。贝叶斯网络的描述简单易懂,但导出的模型却非常复杂。

第 25 章 条件随机场文法分析及其他

1 文法分析——计算机算法的演变

条件随机场——做浅层的分析(Shallow Parsing)

2 条件随机场

4 小结 条件随机场是一个非常灵活的用于预测的统计模型。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值