NLP-统计分词-隐马尔可夫模型（维特比算法实现详解）

大虾飞哥哥

已于 2022-06-15 23:21:32 修改

阅读量629

点赞数

分类专栏： NLP 文章标签：自然语言处理算法人工智能

于 2022-03-05 11:54:17 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xu624735206/article/details/123285649

版权

NLP 专栏收录该内容

24 篇文章 4 订阅

订阅专栏

NLP-统计分词-隐马尔可夫模型（维特比算法实现详解）

一、HMM模型
二、python实现

一、HMM模型

1. 模型状态集合

$Q$ = { $B$ ， $M$ ， $E$ ， $S$ }， $N$ = 4

2. 观察状态集合

$V$ = { $我$ ， $爱$ ， … } ，句子的集合。

3.观察状态和状态序列

观察序列：小明是中国人
状态序列： $B, E, S, B, M, E$

4. 状态转移概率分布矩阵

在中文分词中就是状态序列 $Q$ = { $B$ ， $M$ ， $E$ ， $S$ } 的转移概率，这个状态概率矩阵是在训练阶段参数估计中得到。
在这里插入图片描述

5. 观测状态概率矩阵(发射概率)

在中文分词中发射概率指的是每一个字符对应状态序列 $Q$ = { $B$ ， $M$ ， $E$ ， $S$ } 中每一个状态的概率，通过对训练集每个字符对应状态的频数统计得到。
在这里插入图片描述

6. 初始概率

在中文分词初始状态概率指的是每一句话第一个字符的对应状态概率。
{ $B$ ：xxx， $M$ : xxx， $E$ : xxx， $S$ : xxx}

7. 目标

在这里插入图片描述
max = $maxP(i_1, i_2, i_3...,i_T | o_1,o_2,o_3... ,o_T)$
其中： $T$ 为句子长度， $o_i$ 是句子的每一个字， $i_i$ 是每个字的标记。
根据贝叶斯公式：

$P (i ∣ o)$ = $P (o ∣ i) P (o)$ / $P (i)$
根据齐性HMM：
$P(o) = p(o1)p(o_2| o_1)...p(o_{t}| o_{t-1})$ , 状态转移概率。
$P(o | i) = p(o_1| i_1)...p(o_{t}| i_{t})$ , 即观测状态生成的概率（发射概率）。

使 $P$ = $P (o ∣ i) P (o)$ $P(o_1)P(o_1|i_1)∏{_2^T}P(o_i|o_{i-1})P(o_i|i_i)$ 概率最大。

二、python实现

1.模型参数初始化

在这里插入图片描述

2.求解过程

$P = P(o_1)P(o_1|i_1)∏{_2^T}P(o_i|o_{i-1})P(o_i|i_i)$

求 “我” 分别是 $B$ 、 $M$ 、 $E$ 、 $S$ 的概率: $P(o_1)P(o_1|i_1)$

$V$ ：第一个字典记录开始的 $B$ 、 $M$ 、 $E$ 、 $S$ 概率
$p a t h$ ：记录当前状态
在这里插入图片描述

求 “我” 的每个状态到 “爱”每个状态的概率: ${_2^T}P(o_i|o_{i-1})P(o_i|i_i)$

在这里插入图片描述

在这里插入图片描述
$y$ 记录下一个状态，遍历 “我” 的每一个状态，由 $y_0$ 记录。
遍历结束会生成四个（概率，字典索引）的列表： $[(p r o b, s t a t e), (p r o b, s t a t e), (p r o b, s t a t e), (p r o b, s t a t e)]$
寻找概率最大的路径，新的路径 = path[state] (之前的路径) + B

运行结果如下，选择S 到 B 的路径：
在这里插入图片描述

在这里插入图片描述

循环遍历，到“爱” 的最终路径如下：
在这里插入图片描述

重复以上过程，找到最大概率路径

大虾飞哥哥

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
NLP-统计分词-隐马尔可夫模型（维特比算法实现详解）

NLP-统计分词-隐马尔可夫模型（维特比算法实现详解）一、HMM模型1. 模型状态集合2. 观察状态集合3.观察状态和状态序列4. 状态转移概率分布矩阵5. 观测状态概率矩阵(发射概率)6. 初始概率7. 目标二、python实现一、HMM模型1. 模型状态集合QQQ = {BBB， MMM， EEE， SSS}，NNN = 42. 观察状态集合VVV = {我我我，爱爱爱， … } ，句子的集合。3.观察状态和状态序列观察序列：小明是中国人状态序列：B,E,S,B,M,EB,
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

大虾飞哥哥 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。