读《数学之美》吴军---笔记001

读《数学之美》吴军---笔记001

简单性和模块化时软件工程的基石,分布式和容错性时互联网的生命

----WWW的发明人蒂姆·伯纳斯·李

《数学之美》整本书都在诉说着这个简单的道理,简单就是美。任何事务想要长远的发展下去,那么越简单越长久。就像十进制从古至今,源远流长。那么今天的我们,不仅仅需要欣赏美,更需要追寻美、创造美,美是我们一生所追求的。苹果当年为什么风靡,乔布斯学过艺术,他对美的追求从未停止,他对产品的美欣赏追求就值得我们学习。

数学的演化过程:实际上是将我们生活中遇到的具体事物及其运动规律不断抽象化的过程。经过几千年的抽象化,大家头脑里能想象的数字只剩下数字、符号、公式和定理了。

以前的数学只和天文学、几何、经济学等关联。而现如今如语言、人工智能、语音识别等等都已经和数学分不开了。在21世纪信息化互联网时代,整个信息论的基础就是数学。

第一章文字和语言VS数字和信息:

  1. 将的就是文字语言和数字信息的相通性。他们都是如此传递信息,如发送人的信息-》通过编码—》通过信道—》解码-》接收人收到信息;语言是信息的载体,数字也是信息的载体;
  2. 聚类,将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类,语言的抽象概括和归类,那么语言和数学一样抽象归类了;
  3. 语言的多义性和利用上下文消除歧义性,由于语义的歧义性是先天性的,语言进行聚类后,一个词将出现多种词义,那么语言的歧义性从产生起已经固有了,那么对上下文建议的概率模型再好,都无法消除其歧义性,都无法达到100%准确;
  4. 十进制来源,以及为什么使用十进制,为什么常用字短,生僻字长,这些都符合信息论中的最短编码原理。同计算机使用二进制一个原理。

第二章自然语言处理从规则到统计:

1、字母或者中文笔画、文字和数字实际上都是信息编码的不同单位,任何一种语言都是一种编码方式,而语言的语法规则就是解编码的算法。语言同数学一样抽象了。我们要表达的意思,就是用语言的编码方式对头脑中的信息做了一次编码,编码的结果就是语言或者说是一串字符,接收者可以利用这门语言的节目方法获得说话人要表达的信息,是不是和计算机传递信息一致

2、1950-1970年代:科学家们对于语言的处理方式是规则

3、1970年以后,科学家们对语言的处理方式是使用统计以及概率。但是进展不大,一是语料不够,即当时没有足够多的统计数据,二是没有足够强的模型。

第三章语言的统计模型:

     1、基于上下文相关特性建立数学模型,这个模式就是统计语言模型

     2、马尔可夫链假设的二元模型,即假定任意一个词Wi出现的概率只通他前面的词Wi-1有关。

     3、条件概率

     4、高阶语言模型

     5、模型的训练:零概率事件和平滑方法,古德-图灵估计原理:对于没有看见的事件,我们不能认为它发生的概率就是零,因此我们从概率的总量中,分配一个很小的比例给这些看不见的事件。

     6、语料的选取

     7、数学的魅力就在于将复杂的问题简单化。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值