《数学之美》---笔记006

第二十一章:拼音输入法的数学原理

  1. 输入法输入输入汉字的快慢取决于汉字编码的平均长度,通俗点讲,就是用击键次数乘以寻找这个键所需要的时间
  2. 键盘上可用编码的基本键26个字母加上10个数字键(十个数字用来消除歧义),外加控制键。
  3. 汉字编码取决于两部分:对拼音的编码和消除歧义性
  4. 微软早期的双拼输入法,很多韵母共用一个键,增加了歧义性;增加了每次击键次数;容错性不好【比如一开始就选错了韵母】;所以一个好的输入法不能要求用户读准每个字的发音。
  5. 五笔输入法:需要拆字,这个违反了人类的思维方式。语言和文字是作为通信的编码手段,他的一个重要目的是帮助思维和记忆。但是五笔输入法的拆字中断了人们的思维过程。这就和人类的自然行为不相符。
  6. 拼音输入法:简单不需要专门学习;输入自然不会中断思维;编码长有信心冗余度,容错性好。
  7. 拼音转汉字到底多快,需要用到信息论中的香农第一定律,根据香农第一定理指出,对于任何一个信息,任何编码长度都不小于他的信息熵。因此平均编码长度的最小值就是汉字的信息熵
  8. 拼音转汉字的算法:拼音转汉字和在导航中寻找最短路径的算法相同,都是动态规划。

解决问题思路:遵循自然,简单之美

第二十二章:自然语言处理的教父马库斯和他的优秀弟子们

  1. 自然语言处理从基于规则到基于统计的研究方法上,贡献最大的两人:贾里尼克和马库斯
  2. 马库斯利用自己的影响力推动了美国自然科学研究基金会、DARPA、多所大学和研究机构建议了数百个标准语料库组织LDC
  3. 如今的自然语言处理方面发表论文,几乎都需要提供基于LDC语料库的测试结果
  4. 他的学生柯林斯是一个追求完美型人才,能不停的深耕某一个方面,比如他做出的文法分析器就在相当长的一段时间内是世界上最好的
  5. 他的学生布莱尔是一个追求简单的人才。
  6. 如果说柯林斯是一个“务于精纯”的精深专才,布莱尔更像一个“观期大略”的通才

教育方面:作为一个父母在教育方面需要学习马库斯的思维方式教育方法管理方法。贾里尼克和马库斯都会告诉他们的学生什么方法不好,但是那种方法好,具体如何做就留给了学生们自己去解决了。我们作为父母是否在教育上也要尽量让孩子们自己去寻找解决问题的方法,而不需要帮忙代做。

第二十三章:布隆过滤器

  1. 1970年伯顿布隆提出了布隆过滤器,它实际上是一个很长的二进制向量和一系列随机映射函数。
  2. 具体算法:1、假定存储一亿个电子邮件地址,先建立一个16亿个比特位即两亿字节的向量;2、16亿比特位全部清零;3、对于每一个邮件地址X用8个不同的随机数产生器产生8个信息指纹,4、把这8个位置的比特位全部置一
  3. 布隆过滤器的优缺点:好处在于快速、省空间,缺点有一定的误识别率,补救办法是在建立一个小的白名单。

解决问题:化繁为简,减少运算量以及存储量

第二十四章:贝叶斯网络

  1. 贝叶斯网络相比马尔可夫链而言,更接近实际应用。马尔可夫链其每个状态值取决于上一个状态,但在实际生活中则很可能交叉的错综复杂的,那么就需要贝叶斯网络了。
  2. 贝叶斯网络,即每一个状态只跟前与其直接相连的状态有关,而跟与他间接相连的状态没有直接关系。贝叶斯网络是马尔可夫链的推广

总结:可以用于生物医学。

第二十五章:条件随机场、文法分析及其他

  1. 文法分析和语义分析
  2. 查尼阿克,统计出的文法规则的概率,坚持一个原则---让被分析的句子的语法树概率达到最大。
  3. 条件随机场是隐含马尔可夫模型的一种扩展,同贝叶斯类似
  4. 条件随机场在其他领域的应用,如警察预测在城市的什么地方什么时间可能会出现什么样的犯罪,从而有针对性的进行巡视叨叨制止犯罪的目的
  5. 其他领域:模式识别、机器学习、生物统计等领域都有应用

第二十六章:维特比

  1. 基于CDMA的3G移动通信标准主要就是维特比和艾文·雅各布创办的高通公司制定的。
  2. 海蒂·拉玛尔和维特比是对CDMA技术贡献最大的两个人
  3. 扩频传输与固定频率传输相比。1、他抗干扰能力强;2、扩频传输信号很难被截获;3扩频传输利用宽带更充分

第二十七章:期望最大化算法

  1. 文本的自收敛分类,相比前面新闻分类(两两比较进行聚类)更加简单,他更加自动化
  2. 算法描述:1、随驾挑选K个点,随机指定3个类;2、计算点到这些聚类中旬的距离,将这些点归到最近的一类中;3、重新计算每一类的中心,使新的聚类中心和原先相比产生一个位移;4、重复上述过程,每次利用新旧中心位移,使其收敛。

解决问题思路:解决一个问题后,我们不是不管了,而是需要尽量优化。 其次互联网时代,智能时代,需要尽量解放手工使用机器。

第二十八章: 逻辑回归和搜索广告

1、逻辑回归模型:是一种将影响概率的不同因素结合在一起的指数模型。和很多指数模型一样(最大熵模型),他们的训练方法相似,都可以通过迭代算法GIS和改进的迭代算法IIS实现

第二十九章: 各个击破算法

  1. 分治算法基本原理:将一个复杂的问题,分解成若干个简单的子问题解决,然后在对子问题的结果进行合并,得到原来的问题的解。同动态规划中寻找最短路线相似

第三十章: Google大脑和人工神经网络

  1. 人工神经网络:和人脑没有半点关系,本质上就是一种向量图,只不过是一种特殊的向量图。神经元+神经(节点+连接线)
  2. 描述:1、人工神经网络中所有节点都是分层的,每一层节点可以通过有向弧指向上一层节点,但是同一层的节点没有弧相连,而且每一个节点不能越过节点到上上层节点上。2、每一条弧上都有一个值(权重值)
  3. 人工神经网络分为三层:输入层、中间层、输出层。
  4. 大多数与“智能”有点关系的问题,都可以归结为在多维空间进行模式分类。人工神经网络最擅长的就是模式分类,比如语音识别、机器翻译、人脸图像识别。
  5. 人工神经网络计算:如节点X1 , X2 , …Xn指向Y,这些节点上的值为x1 x2 …xn  权重值为w1 w2 …wn;

第一步计算来自这些x1 x2 …xn的线性组合:

G=w0+ x1· w1  + x2 · w2   + … + xn· wn

第二步:计算Y的值 y=f(G)

总结:真正能够统用的工具在形式上必定是简单的。随着计算能力不断提高,计算量大但简单的数学方法有时候能够解决很复杂的问题。

第三十一章: 谈谈数据的重要性

  1. 什么是数据:狭义的数据:指数学中的数字,广义中的数据包括互联网上的全部内容,如姓名、图片、影像、资料等等。
  2. 人类的文明与进步,从某种意义上讲是通过对数据进行收集、处理和总结达成的。
  3. 归纳和演绎,如李时珍《本草纲目》就是对药物数据的一种归纳整理。所以我们需要遵循一个规则,在没有数据之前,不要给出任何结论
  4. 数据统计:1、语料足够多的情况下;2、采样数据具有代表性。统计才有效果
  5. 马太效应:好的越来越好,强者愈强,弱者愈弱
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值