文本数据分析之词性标注

1.词性标注是在给定句子中判断每个词的语法范畴,确定其词性并加以标注的过程。

2.中文标注标准主要分为北大词性标注集和滨州词性标注集两大类。

3.北大词性标注规范常用词性编码如下:

标记词性
a形容词

c

连词
d副词
e叹词
m数词
n名词
o拟声词
p介词
q量词
r代词
u助词
v动词

例如:“在2022年来临之际,我十分荣幸通过中央电视台,向全国各族人民、海外同胞,致以诚挚的问候和良好的祝愿!”的标注结果为:

在/p 2022年/t 来临/v 之际/f ,/w 我/r 十分/m 荣幸/a 通过/p [中央/n 电视台/n]nt ,/w 向/p 全国/n 各族/r 人民/n、/w 海外/s 同胞/n ,/w 致以/v 诚挚/a 的/u 问候/vn 和/c 良好/a 的/u 祝愿/vn !/w

4.Jieba词性标注

(1)它是基于规则与统计相结合的词性标注方法。

(2)词性标注时首先基于正则表达式进行汉字判断,若符合表达式则判定为汉字,然后基于前缀词典构建有向无环图,在计算最大概率路径,当在词典中未找到时赋予词性为“x”代表未知,当待标注词为未登录词时则通过HMM进行词性标注;若不符合表达式则不为汉字,将继续通过正则表达式进行类型判断,并标注为“x”、“m”(数词)、“eng”(英文)。

re_han_internal = re.compile("([\u4E00- \ u9FD5a-zA-Z0-9+#$\._]+)")#正则表达式,仅作了解

(3)词性标注流程如下:#仅作了解即可

第一步,加载离线统计词典;

第二步,构建前缀词典;

第三步,构建有向无环图(根据以每个字开始位置与相应切分的末尾位置构成的映射列表构建图)

第四步,计算最大概率路径

代码如下:#这个很重要

import jieba.posseg as psg #加载分词函数
sent='我今天想去爬山'
for w,t in psg.cut(sent):
    print(w,'/',t)

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

悦小白

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值