NLP学习之旅——语言模型
第五章 语言模型
本文是对所学内容做总结,链接: 中国科学院大学-自然语言处理-2018
5.1基本概念
n元文法(n-gram)模型
5.2参数估计
5.3数据平滑
(1)加1法(Additive smoothing)
(2)减值法/折扣法(Discounting)
其中减值法主要包括四种方法:Good Turing估计、Back-off(后备后退方法)、绝对法/减值法(Absolute discounting)、线性减值法(linear discounting)
(3)删除法/插值法(deleted interpolation)
虽然相对于绝对减值法,线性减值法在解释上更为合理,但是实际效果却是绝对减值法更好。
最简单粗暴的方法,效果反而更好。目前使用最多的一般都是两种方法:加1法和绝对减值法。
各种平滑已经研究的很透彻了,其中各种平滑法的详细介绍及比较链接如下:
链接: Postdoctoral Fellow, Center for Automated Learning and DiscoveryCarnegie Mellon University.
且因为研究透彻,出现了一些工具:
5.4语言模型的自适应
(1) 基于型 缓存的语言模型 (Cache-based LM)
(2) 基于混合方法的语言模型
(3)基于最大熵的语言模型
5.5语言模型应用举例
词类表
模型训练三步
本文是对内容进行大致提取,更多细节部分可以参考PPT。PPT链接: 自然语言理解课程讲义.