大规模语料库的出现为自然语言统计处理方法的实现提供了可能,统计方法的成功使用推动了语料库语言学的发展。
基于大规模语料库和统计方法,可以
发现语言使用的普遍规律;
进行机器学习、自动获取语言知识;
对未知语言现象进行推测。
如何计算一段文字(句子)的概率?
n元文法(n-gram)模型
计算
应用:音字转换问题、汉语分词问题
参数估计
实例
数据平滑(data smoothing)
解决数据匮乏(稀疏)(Sparse Data)引起零概率问题。
拉普拉斯平滑
减值法/折扣法(Discounting):
- Good-Turing估计
- Back-off(后备/后退)方法
- 绝对减值法(Absolute discounting )
- 线性减值法(Linear discounting )
删除插值法(Deleted interpolation)
语言模型的自适应
自适应方法:
- 基于缓存的语言模型
- 基于混合方法的语言模型
- 基于最大熵的语言模型
习题