【NLP】词性标注

SnowFly09

已于 2024-05-23 18:56:24 修改

阅读量1.4k

点赞数 13

分类专栏：自然语言处理文章标签：自然语言处理人工智能

于 2024-05-16 16:45:51 首次发布

本文链接：https://blog.csdn.net/weixin_46876169/article/details/138966776

版权

词

词是自然语言处理的基本单位，自动词法分析就是利用计算机对词的形态进行分析，判断词的结构和类别。
词性（Part of Speech）是词汇最重要的特性，链接词汇和句法

词的分类

屈折语：形态分析
分析语：分词
黏着语：分词+形态分析

基本任务

单词识别&形态还原
考虑特殊的单词：prof. 缩写不规则变形
形态还原：时态年代序数词货币符号百分号
合成词还原 seven-year-old

形态分析的一般方法

查词典
根据不同的情况查找相对应的规则对单词进行处理，如果在字典找得到该单词的原型，则结束，如果找不到，就按照未登录词处理
完全陌生的词，按照未登录词处理

汉语自动分词

汉语分词问题

单字词与词素的区分
词与短语的区分

切分歧义

交集型歧义

中国人/为了/胜利
中国/人为/了/胜利
交集串的集合称为叫交集串链，交集串个数称为链长
e.g. 中国产品质量：中国/国产/产品/品质/质量交集串为：国，产，品，质，交集串链为{国，产，品，质}，链长为 4

组合型歧义

门/把/手/弄/坏/了
门/把手/弄/坏/了

未登录词的识别

人名，地名，组织名
新出现的词汇

汉语分词的基本规则：合并

成语：马马虎虎
定量结构：十三区
定名组合：六点
副词片语：或多或少
重叠结构：高高低低
不可拆分词：进出口

辅助规则：切分

有明显间隔符或语义分隔的
太过复杂，正反问句，动词带双音节补语：石油/化工/业，讨论/清楚，喜欢/不/喜欢
专有名词带普通名词：京沪/铁路

分词，标注的评价方法

测试：封闭测试/开放测试
评价指标：
正确率：测试结果中正确的切分占系统总输出的比例： $\frac{n}{N}\times100\%$
召回率：系统输出的答案里面正确的个数 5 占总正确的个数，与文本分类里的 Recall 一样： $\frac{n}{N}\times 100%$
F 测度：同上一章

汉语分词的基本算法

有词典切分/无词典切分
基于规则/基于统计

最大匹配法

-有词典切分，机械切分
正向最大匹配/逆向最大匹配/双向最大匹配
e.g.他是研究生物的一位科学家，假设词典当中的最长词汇长度为 7

正向最大匹配：

先进行最大长度的切分：他是研究生物的/一位化学家
随后逐渐缩小确定第一个切分词：他/是研究生物的一位化学家
然后接着上一个切分的词继续：他/是/研究生物的一位化学家
不断循环，可以得到：他/是/研究生/物/的/一/位/化学家

逆向最大匹配：

他/是/研究/生物/的/一/位/化学家
可以看出来正向匹配和逆向匹配之间存在着差别

优缺点

程序简单，但歧义的消解能力弱，切分准确率在 95% 左右。

最少分词法（最短路径法）

记待切分词串为 $S=c_1c_2...c_n$ ，其中 c 均为单个的字，n 为串的长度且大于等于 1，建立一个节点数为 n+1 的切分有向无环图：

在相邻节点间创建有向边，边对应词，如果 $w = c_i...c_j$ 为一个单词，则建立有向边（Vi-1，Vj），重复建立并查看是否新词，最后直到考虑单词的长度上限停止，从所有路径中选覆盖了所有节点的尽可能长的路径作为分词结果
e.g. 他说的确实对可以分为
他/说的/确实/对
他/说/的确/实/对
seg=4<seg=5，选择第一个分词