原文:Kandola, E. J. , Hofmann, T. , Poggio, T. , & Shawe-Taylor, J. . (2006). A neural probabilistic language model. Studies in Fuzziness & Soft Computing, 194, 137-186.
原文地址A Neural Probabilistic Language Model
关于语言模型n-grams的内容,参见系列博文语言模型:n-grams
摘要
统计语言模型的目的是为了获取序列的联合概率分布,最经典的做法就是基于前文来推断下文。
P ( x 0 , x 1 , . . . , x t ) = P ( x 0 ∣ < s t a r t > ) ∏ i = 0 t ( x i ∣ x i − 1 , . . , x 0 ) P ( < e n d > ∣ x t ) P(x_0,x_1,...,x_t) =P(x_0|<start>) \prod_{i=0}^t(x_i|x_{i-1},..,x_0)P(<end>|x_t) P(x0,x1,...,xt)=P(x0∣<start>)i=0∏t(xi∣xi−1,..,x0)P(<end>∣xt)
对于那些未出现在词库中的句子(很显然会出现),这里的条件概率只能是0,导致数据矩阵稀疏,最终会引发维度灾难。
为此,基于马尔可夫假设的n-grams方法提出,只选取部分前文(short lapping,一般n<4)作为变量计算条件概率。
P ( x t + 1 ∣ x