1.词性标注是在给定句子中判断每个词的语法范畴,确定其词性并加以标注的过程。
2.中文标注标准主要分为北大词性标注集和滨州词性标注集两大类。
3.北大词性标注规范常用词性编码如下:
标记 | 词性 |
---|---|
a | 形容词 |
c | 连词 |
d | 副词 |
e | 叹词 |
m | 数词 |
n | 名词 |
o | 拟声词 |
p | 介词 |
q | 量词 |
r | 代词 |
u | 助词 |
v | 动词 |
例如:“在2022年来临之际,我十分荣幸通过中央电视台,向全国各族人民、海外同胞,致以诚挚的问候和良好的祝愿!”的标注结果为:
在/p 2022年/t 来临/v 之际/f ,/w 我/r 十分/m 荣幸/a 通过/p [中央/n 电视台/n]nt ,/w 向/p 全国/n 各族/r 人民/n、/w 海外/s 同胞/n ,/w 致以/v 诚挚/a 的/u 问候/vn 和/c 良好/a 的/u 祝愿/vn !/w
4.Jieba词性标注
(1)它是基于规则与统计相结合的词性标注方法。
(2)词性标注时首先基于正则表达式进行汉字判断,若符合表达式则判定为汉字,然后基于前缀词典构建有向无环图,在计算最大概率路径,当在词典中未找到时赋予词性为“x”代表未知,当待标注词为未登录词时则通过HMM进行词性标注;若不符合表达式则不为汉字,将继续通过正则表达式进行类型判断,并标注为“x”、“m”(数词)、“eng”(英文)。
re_han_internal = re.compile("([\u4E00- \ u9FD5a-zA-Z0-9+#$\._]+)")#正则表达式,仅作了解
(3)词性标注流程如下:#仅作了解即可
第一步,加载离线统计词典;
第二步,构建前缀词典;
第三步,构建有向无环图(根据以每个字开始位置与相应切分的末尾位置构成的映射列表构建图)
第四步,计算最大概率路径
代码如下:#这个很重要
import jieba.posseg as psg #加载分词函数
sent='我今天想去爬山'
for w,t in psg.cut(sent):
print(w,'/',t)