马尔科夫假设认为在一句话中,某单词的出现概率只与它前面的前 nnn 个单词有关。
2.2.1 Bi-gram
基于一阶马尔科夫假设衍生出Bi-gram语言模型,该模型假设句中单词的出现概率只与其前面相邻的前1个单词有关,所以模型表达式可简化成如下:
P(S)=P(W1,W2,…,Wn)=P(W1)P(W2∣W1)⋯P(Wn∣Wn−1)(4)
P(S) = P(W_1, W_2, …, W_n) = P(W_1)P(W_2|W_1) \cdots P(W_n|W_{n-1}) \tag{4}
P(S)=P(W1,W2,…,Wn)=P(W1)P(W2∣W1)⋯P(Wn∣Wn−1)(4)
式中条件概率从语料库中统计得到。
2.2.1 N-gram
同理可得,基于二阶及以上马尔科夫假设能生出N-gram语言模型,该模型假设句中单词的出现概率只与其前面相邻的前 N-1个单词有关,所以模型表达式可简化成如下:
P(S)=P(W1,W2,…,Wn)=P(W1)P(W2∣W1)⋯P(Wn∣Wn−N+1,…,Wn−1)(5)
P(S) = P(W_1, W_2, …, W_n) = P(W_1)P(W_2|W_1) \cdots P(W_n|W_{n-N+1}, \dots , W_{n-1}) \tag{5}
P(S)=P(W1,W2,…,Wn)=P(W1)P(W2∣W1)⋯P(Wn∣Wn−N+1,…,Wn−1)(5)