1.n-Gram 统计语言模型
n- gram 模 型于1980年提 出 来 , 是 一种 应用很 广 的统 计 语 言模 型。它 认为每个预测变量只与长度为n-1的上下文有关
模型问题:
然而 ,该方法存在一个问题 , 即可能存在某个 n-gr am, 它在学习语料集中没有出现 , 而可能出现在测试语料集中 ,类似的问题称作数据的稀疏问题。
我们需要对这些没有出现在学习语料中的n-gram估计一个不为0的值。
针对该模型的几种平滑处理方法:
1.1 Good-Turing方法
又称为折扣最大似然法,给定一个折扣系数,可证明经调整后,所有n-gram的概率和满足归一化性质
Good-Turning的优点:它可对训练语料中没有出现的m-gram直接估计出一个概率值,因此在平滑化处理中被广泛使用。随着模型阶数n的增加,数据稀疏问题也越来越严重。
1.2 插值法,kaze回退法
不是此处重点,故不一一介绍
1.3 n-gram模型两个问题
分析n-gram模型中存在两个互相矛盾的问题:
一方面由于模型复杂性的制约 ,实际中一般只采 用很短的上下文 ,长度n的值一般为 2 ~ 7. 因此用于预测上下文信息太少,我们可以称其为上下文有限问题 。另一方面 在n-gram模型