Language Model
-
words
-
phrase
-
sentence
2.2.1 Unigram Language Models
某个词出现的概率来估计一句话出现的概率
互不相干的独立同分布的词
概率相乘
参数就是词的概率
简单模型的问题:
-
训练集没有见过的词,出现的概率为0 ->未登录词(out-of-vocabulary)
OOV词虽然有,但是相对频率是0.概率参数也是0,结果也是0
-
解决:平滑(smoothing)每一个词的数量至少为1 add 1 smoothing
-
Add-α Smoothing
超参数:模型训练之前一般就设置好了,不参与模型训练的过程,或者根据模型训练选择的
-
2.2.2 Bigram Language Models
使用两个连续的单元来计算一句话出现的概率
二元语言模型参数化的过程中,计算了一个条件概率,给定 w1和w2概率(前面词和后面词)w1的概率,以及w1发生条件下的w2的概率,估算方法同样是最大似然估算。
Reducing sparsity
和随机抽取一个词相比,训练集里面没有出现二