前言
这是本人的第一篇博客,主要以记录自己的学习内容为主,由于水平有限,如果内容有误还请各位看官多多包涵,及时指正。本篇博客也多参考了各篇博客、书籍及视频,在此感谢各位前辈的指导。
这一篇博客将要介绍早期NLP发展阶段使用到的模型,随后引出至今为止依然在使用的词向量。
数学基础
贝叶斯公式
贝叶斯公式是英国数学家贝叶斯( Thomas Bayes)提出来的,用来描述两个条件概率之间的关系。若记P(A),P(B)分别表示事件A和事件B发生的概率,P(A|B)表示事件B发生的情况下事件A发生的概率,P(A,B)表示事件A,B同时发生的概率,则有
P ( A ∣ B ) = P ( A , B ) P ( B ) , P ( B ∣ A ) = P ( A , B ) P ( A ) P ( A | B ) = \frac { P ( A , B ) } { P ( B ) } , \quad P ( B | A ) = \frac { P ( A , B ) } { P ( A ) } P(A∣B)=P(B)P(A,B),P(B∣A)=P(A)P(A,B)
根据上面的公式进一步推出
P ( A ∣ B ) = P ( A ) P ( B ∣ A ) P ( B ) P ( A | B ) = P ( A ) \frac { P ( B | A ) } { P ( B ) } P(A∣B)=P(A)P(B)P(B∣A)
以上便是贝叶斯公式。
统计语言模型
简单说来,统计语言模型简单来讲就是计算一个句子出现概率的概率模型。
模型原理
假设一个句子W 由T个词 w 1 , w 2 , ⋯ , w T w _ { 1 } , w _ { 2 } , \cdots , w _ { T } w1,w2,⋯,wT按顺序组成,记作
W = w 1 T : = ( w 1 , w 2 , ⋯ , w T ) W = w _ { 1 } ^ { T } : = \left( w _ { 1 } , w _ { 2 } , \cdots , w _ { T } \right) W=w1T:=(w1,w2,⋯,wT)
则一个句子的概率就是词 w 1 , w 2 , ⋯ , w T w _ { 1 } , w _ { 2 } , \cdots , w _ { T } w1,w2,⋯,wT