NLP-词性标注-隐马尔可夫模型实现


一、词性标注

词性标注是语料库语言学中将语料库内单词的词性按其含义和上下文内容进行标记的文本数据处理技术。

二、HMM词性标注构建

1.词性标注任务目标

词性标注的任务是:给定词序列 W = w 1 , w 2 , … , w n W= w_1,w_2,…,w_n W=w1,w2,,wn ,寻找词性标注序列 T = t 1 , t 2 , … , t n T=t_1,t_2,…,t_n T=t1,t2,,tn,使得 P ( t ! , t 2 , . . . , t n ∣ w 1 , w 2 , . . . , w n ) P(t_!,t_2,...,t_n|w_1,w_2,...,w_n) P(t!,t2,...,tnw1,w2,...,wn) 这个条件概率最大。

例如,词序列是:“他回来” 这句话。为了简化计算,假设只有词性:代词( r r r)、动词( v v v)、名词( n n n)和方位词( f f f)。这里:“他” 只可能是代词,“会” 可能是动词或者名词,而 “来” 可能是方位词或者动词。所以有4种可能的标注序列。

需要比较以下四个概率:
P ( r , v , v ∣ 他 , 会 , 来 ) P(r,v,v|他,会,来) P(r,v,v,,)
P ( r , n , v ∣ 他 , 会 , 来 ) P(r,n,v|他,会,来) P(r,n,v,,)
P ( r , v , f ∣ 他 , 会 , 来 ) P(r,v,f|他,会,来) P(r,v,f,,)
P ( r , n , f ∣ 他 , 会 , 来 ) P(r,n,f|他,会,来) P(r,n,f,,)
发现 P ( r , v , v ∣ 他 , 会 , 来 ) P(r,v,v|他,会,来) P(r,v,v,,)是这4个概率中最大的,所以选择词性标注序列 ( r , v , v ) (r,v,v) (rvv)

使用贝叶斯公式重新描述这个条件概率:
P ( t 1 , t 2 , . . . , t n ∣ w 1 , w 2 , . . . , w n ) P(t_1,t_2,...,t_n|w_1,w_2,...,w_n) P(t1,t2,...,tnw1,w2,...,wn) =

P ( t 1 , t 2 , . . . , t n ) ∗ P ( w 1 , w 2 , . . . , w n ∣ t 1 , t 2 , . . . , t n ) / P ( w 1 , w 2 , . . . , w n ) P(t_1,t_2,...,t_n) * P(w_1,w_2,...,w_n|t_1,t_2,...,t_n) / P(w_1,w_2,...,w_n) P(t1,t2,...,tn)P(w1,w2,...,wnt1,t2,...,tn)/P(w1,w2,...,wn)

忽略掉分母,使用二元模型以及齐次性使 P ( t 1 , t 2 , . . . , t n ) ∗ P ( w 1 , w 2 , . . . , w n ∣ t 1 , t 2 , . . . , t n ) P(t_1,t_2,...,t_n) * P(w_1,w_2,...,w_n|t_1,t_2,...,t_n) P(t1,t2,...,tn)P(w1,w2,...,wnt1,t2,...,tn) 概率最大。

其中:
P ( t 1 , t 2 , . . . , t n ) = P ( t 1 ) p ( t 2 ∣ t 1 ) . . . p ( t n ∣ t n − 1 ) P(t_1,t_2,...,t_n) =P(t1)p(t_2| t_1)...p(t_{n}| t_{n-1}) P(t1,t2,...,tn)=P(t1)p(t2t1)...p(tntn1)
P ( w 1 , w 2 , . . . , w n ∣ t 1 , t 2 , . . . , t n ) = p ( w 1 ∣ t 1 ) . . . p ( w n ∣ t n ) P(w_1,w_2,...,w_n|t_1,t_2,...,t_n) = p(w_1| t_1)...p(w_{n}| t_{n}) P(w1,w2,...,wnt1,t2,...,tn)=p(w1t1)...p(wntn)

2. 模型状态集合

Q Q Q = { r r r v v v n n n f f f}, N N N = 4

3. 观察状态集合

V V V = { 我 我 会 会 来 来 … } ,句子的集合。

4. 状态转移概率分布矩阵

在词性标注中就是状态序列 Q Q Q = { r r r v v v n n n f f f} 的转移概率,这个状态概率矩阵是在训练阶段参数估计中得到。

在这里插入图片描述

5. 观测状态概率矩阵(发射概率)

在词性标注中发射概率指的是每一个字符对应状态序列 Q Q Q = { r r r v v v n n n f f f} 中每一个状态的概率,通过对训练集每个字符对应状态的频数统计得到。
在这里插入图片描述

6. 初始概率

词性标注中初始状态概率指的是每一句话第一个字符的对应词性概率。
{ r r r:xxx, v v v: xxx, n n n: xxx, f f f: xxx}

7. 维特比求解

在这里插入图片描述

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大虾飞哥哥

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值