《数学之美》---笔记002

第四章:谈谈分词

1、利用统计语言模型分词的方法,假定一个句子分词有多种分词方法,那么那种概率大就被认为是最合适的

2、对于机器翻译中,分词的颗粒度应该大些,如北京大学就不能分成两个词;

3、手写体识别输入法同样使用分词模型

4、分词的一致性

5、词的颗粒度和层次,词是表达意思的最小单位,同化学中的分子一样

6、分词库,包括基本词表和复合词表

7、我们需要不断完善分词库,语言再不断发展,词库同样需要发展,没有一种模型能够一劳永逸。

第五章:隐含马尔可夫模型

1、通信模型,通信的本质就是一个编解码和传输的过程

2、隐含马尔可夫模型,概率论的发展从(相对静态)随机变量的研究发展到对随机变量的时间序列(动态的)的研究过程。隐含马尔可夫模型在每个时间T会输出Ot,而且Ot仅和St相关,这个被称为独立的输出假设。

3、隐含马尔可夫模型的训练,1、给定一个模型如何计算某个特定的输出序列的概率;2、给定一个模型和某个特定的输出序列,如何找到最可能产生这个输出的状态序列;3、给定足够的观察数据,如何估计隐含马尔可夫模型的参数

4、隐含马尔可夫模型最初应用于通信领域,继而推广到语音和语言处理中,已经成为自然语言处理和通信的桥梁。

第十二章:有限状态机和动态规划

  1. 地址分析和有限状态机,有限状态机是一个特殊的有向图,他包括一些状态(节点)和链接这些状态的有向弧。如当前状态为【省】,那么遇到一个词组和区县有关,就进入状态【区县】
  2. 动态规划(Dynamic Programming),寻找北京到广州的最短路径,可以分解为寻找北京到郑州的最短路径,这样一个全局最优问题就一个一个分解为寻找局部最优问题,这样就把一个问题的计算复杂度大大降低了。

有限状态机和动态规划在语音识别、拼写、语法纠错、拼音输入法、工业控制和生物序列分析等领域都有极其重要的作用

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值