NLP(11): 词性标注实战

词性标注 Pos Tagging

1、introduction

每一行的单词对应它的词性
在这里插入图片描述
学习如何把一个句子中的每个单词进行标记
在这里插入图片描述

  • noisy channel model:
    argmaxP(z|s)=p(s|z)p(z)=p(w1w2w3…wn|z1z2z3…zn)p(z1z2…zn)

在这里插入图片描述

  • 前半部分:给定一个词性,出现该词的概率
  • 后半部分:biagram prob

目的:找到最好的z,使得在给定s下,词性的概率最大
在这里插入图片描述
加入log

需求:求出三个部分的概率:

  • step 1: compute A,B,PI
  • step 2:Viterbi algorithm

对于优化z中的参数解释:

将词性的序列对应隐状态序列,将词序列对应观测序列

  • p ( w i ∣ z i ) p(w_i|z_i) p(wizi): 从隐状态转移到观测序列的概率
  • p(z): 初始概率
  • p ( z t ∣ z t − 1 ) p(z_t|z_{t-1}) p(ztzt1)从t-1时刻的状态转移到t时刻的概率,在这里代表不同词性在文章中的关系

在这里插入图片描述
给定条件:每一个时刻的词的出现只与当前的词性相关。
假设: w i w_i wi当前词只依赖于当前的词性 z i z_i zi

在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值