NLP基础之词性标注代码实现

本文详细介绍了自然语言处理中的词性标注技术,通过代码实例展示了如何进行词性标注,帮助读者理解并掌握这一基础NLP技能。
摘要由CSDN通过智能技术生成
# 数据集已对每个词进行了标注
#生成 词库,词标签,词性标签
word2id, id2word = {
   },{
   }
tag2id, id2tag = {
   }, {
   }

for line in open('traindata.txt'):
    item = line.split('/')
    word, tag = item[0], item[1].rstrip()
    if word not in word2id:
        word2id[word] = len(word2id)
        id2word[len(word2id)] = word
    if tag not in tag2id:
        tag2id[tag] = len(tag2id)
        id2tag[len(id2tag)] = tag
        
        
M = len(word2id)
N = len(tag2id)
# 构建pi,A, B
import numpy as np
pi = np.zeros(N)  # 每个tag(词性)出现在句首的概率
A = np.zeros
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值