NLP作业01:请利用HMM实现词性标注

NLP作业01:请利用HMM实现词性标注

作业头

这个作业属于哪个课程自然语言处理
这个作业要求在哪里https://bbs.csdn.net/topics/614556240
我在这个课程的目标是理解并学会应用HMM模型
这个作业在那个具体方面帮助我实现目标应用HMM
参考文献https://zhuanlan.zhihu.com/p/224770895

一、作业内容:

1.利用“1998人民日报词性标注语料库”进行模型的训练。

2.根据数据估计HMM的模型参数:全部的词性集合Q,全部的词集合V ,初始概率向量PI ,词性到词性的转移矩阵A ,词性到词的转移矩阵B 。 可以采用频率估计概率的方法计算模型参数,但需要进一步采用拉普拉斯平滑处理。

3.在模型预测阶段基于维特比算法进行解码,并给出测试文本:“那个球状闪电呈橘红色,拖着一条不太长的尾迹,在夜空中沿一条变换的曲线飘行着。”的词性标注结果。

二、作业要求:

作业包括以下几个部分:

1)作业头:请务必加上作业头,认真填写作业头的内容,特别是目标和参考文献。(1分)

(2)对HMM模型进行介绍:必须是在自身理解的基础上进行总结,可以借鉴,但不可以抄袭。(2分)

(3)估计HMM的模型参数:对模型参数估计所采用的公式进行介绍,并给出相应实现代码(2分)

(4)基于维特比算法进行解码:对维特比算法进行介绍,并给出相应实现代码(3分)

(5)词性标注结果:给出题目要求的测试文本的词性标注结果,并对结果进行分析,针对标注结果不理想的情况,请给出具体解决方案。(2分)

一 HMM模型介绍

隐马尔可夫模型(Hidden Markov Model,HMM)是统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析,例如模式识别。
在这里插入图片描述

二 估计HMM的模型参数

是在被建模的系统被认为是一个马尔可夫过程与未观测到的(隐藏的)的状态的统计马尔可夫模型。
HMM模型是一个生成模型,描述了两个相关序列的依赖关系。这两个相关序列称为状态序列

X1,X2,X3,……,XTX_1,X_2,X_3,……,X_TX_1,X_2,X_3,……,X_T 和 观测序列
O1,O2,X3,……,OTO_1,O_2,X_3,……,O_TO_1,O_2,X_3,……,O_T.其中状态序列在t时刻的值只和t-1时刻

状态序列的取值有关,观测序列在t时刻的值只和t时刻观测序列的取值有关。
Alt
其联合概率函数如下
在这里插入图片描述

基于维特比算法进行解码

维特比算法就是求所有观测序列中的最优,如下图所示,我们要求从S到E的最优序列,中间有3个时刻,每个时刻都有对应的不同观察的概率,下图中每个时刻不同的观测标签有3个。
在这里插入图片描述

在这里插入图片描述

# 统计words和tags
words = set()
tags = set()
for words_with_tag in sentences:
    for word_with_tag in words_with_tag:
        word, tag = word_with_tag
        words.add(word)
        tags.add(tag)
words = list(words)
tags = list(tags)
# 统计 词性到词性转移矩阵A 词性到词转移矩阵B 初始向量pi
# 先初始化
A = {tag: {tag: 0 for tag in tags} for tag in tags}
B = {tag: {word: 0 for word in words} for tag in tags}
pi = {tag: 0 for tag in tags}
# 统计AB
for words_with_tag in sentences:
    head_word, head_tag = words_with_tag[0]
    pi[head_tag] += 1
    B[head_tag][head_word] += 1
    for i in range(1, len(words_with_tag)):
        A[words_with_tag[i-1][1]][words_with_tag[i][1]] += 1
        B[words_with_tag[i][1]][words_with_tag[i][0]] += 1
# 拉普拉斯平滑处理并转换成概率
sum_pi_tag = sum(pi.values())
for tag in tags:
    pi[tag] = (pi[tag] + 1) / (sum_pi_tag + len(tags))
    sum_A_tag = sum(A[tag].values())
    sum_B_tag = sum(B[tag].values())
    for next_tag in tags:
        A[tag][next_tag] = (A[tag][next_tag] + 1) / (sum_A_tag + len(tags))
    for word in words:
        B[tag][word] = (B[tag][word] + 1) / (sum_B_tag + len(words))
def decode_by_viterbi(sentence):
    words = sentence.split()
    sen_length = len(words)
    T1 = [{tag: float('-inf') for tag in tags} for i in range(sen_length)]
    T2 = [{tag: None for tag in tags} for i in range(sen_length)]
    # 先进行第一步
    for tag in tags:
        T1[0][tag] = math.log(pi[tag]) + math.log(B[tag][words[0]])
    # 继续后续解码
    for i in range(1, sen_length):
        for tag in tags:
            for pre_tag in tags:
                current_prob = T1[i-1][pre_tag] + math.log(A[pre_tag][tag]) + math.log(B[tag][words[i]])
                if current_prob > T1[i][tag]:
                    T1[i][tag] = current_prob
                    T2[i][tag] = pre_tag
    # 获取最后一步的解码结果
    last_step_result = [(tag, prob) for tag, prob in T1[sen_length-1].items()]
    last_step_result.sort(key=lambda x: -1*x[1])
    last_step_tag = last_step_result[0][0]
    # 向前解码
    step = sen_length - 1
    result = [last_step_tag]
    while step > 0:
        last_step_tag = T2[step][last_step_tag]
        result.append(last_step_tag)
        step -= 1
    result.reverse()
    return list(zip(words, result))

词性标注结果

结果基本上是正确,根据文献HMM一般中文词性标注的准确率能够达到85%以上

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值