人工智能 AI项目统计语言模型之HMM初步学习总结-CSDN博客

本文链接：https://blog.csdn.net/weixin_44194638/article/details/130050252

语法模型

语料库文本：

研究 生命 起源
研究生 命题 大纲
研究生 招生 信息网

计算3个句子的概率：

$p(研究\ 生命\ 起源)=\frac{1}{3}$
$p(研究生\ 命题\ 大纲)=\frac{1}{3}$
$p(研究生\ 招生\ 信息网)=\frac{1}{3}$

问题：以一本书多几本书作为训练集，书中大部分句子不同，所以概率相等，而实际使用模型时，传入的句子在训练集中没有，则会概率为0。

由于句子都是由单词构成的，句子没有重复的，但是单词却是不断重复使用的。所以我们用单词每个单词的概率以数学角度计算句子的概率。
把句子表示成单词列表 $w=w_1 w_2 \dots w_k$

$p(w_1w_2\dots w_k) \\ =p(w_1|w_0)\times p(w_2|w_0w_1)\times \dots \times p(w_{k+1}|w_0w_1w_2\dots w_k)\\ =\prod_{t=1}^{k+1} p(w_{t}|w_0w_1w_2\dots w_{t-1})$

其中 $w_0=BOS$ （Begin Of Sentence，有时也用<s>）， $w_{k+1}=EOS$ （End Of Sentence，有时也用</s>表示）是用来标示句子首尾的两个特殊单词。

二元语法模型

$p(w)=p(w_1w_2\dots w_k)\\ = p(w_1|w_0)\times p(w_2|w_1)\times \dots \times p(w_{k+1}|w_k)\\ =\prod_{t=1}^{k+1}p(w_t|w_{t-1})$

简单来说，当前词概率只与前一个词有关。
一元则是只与当前词有关，n元则是当前词概率则与前n-1个词有关

HMM（隐马尔可夫模型）

隐马尔可夫模型（Hidden Markov Model，HMM）是描述两个时序序列联合分布 $p (x, y)$ 的概率模型：
$x$ 序列外界可见，称为观测序列；
$y$ 序列外界不可见，称为状态序列。
比如观测 $x$ 为单词，状态 $y$ 为词性。我们需要根据单词序列去猜测单词的词性。之所以称为“隐”是因为在外界看来，状态序列（例如词性）是隐藏不可见的。