自然语言处理学习笔记(2)——二元语法与中文分词
一、 语言模型
1. 语言模型
-
模型指的是对事物的数学抽象;语言模型(Language Model,LM)则指的是对语言模型的数学抽象。
-
定义语言模型:把句子表示为单词列表 w = w1w2…wk,每个wt,t∈[1,k] 都是一个单词,则:
p ( w ) = p ( w 1 w 2 ⋯ w k ) p(w)=p(w_1w_2\cdots w_k) p(w)=p(w1w2⋯wk)= p ( w 1 ∣ w 0 ) × p ( w 2 ∣ w 0 w 1 ) × ⋯ × p ( w k + 1 ∣ w 0 w 1 w 2 ⋯ w k ) =p(w_1|w_0)\times p(w_2|w_0w_1)\times \cdots \times p(w_{k+1}|w_0w_1w_2\cdots w_k) =p(w1∣w0)×p(w2∣w0w1)×⋯×p(wk+1∣w0w1w2⋯wk)
= ∏ t = 1 k + 1 p ( w t ∣ w 0 w 1 ⋯ w t − 1 ) =\prod_{t=1}^{k+1} p(w_t|w_0w_1\cdots w_{t-1}) =t=1∏k+1p(wt∣w0w1⋯w