【NLP】词性标注

词是自然语言处理的基本单位,自动词法分析就是利用计算机对词的形态进行分析,判断词的结构和类别。
词性(Part of Speech)是词汇最重要的特性,链接词汇和句法

词的分类

屈折语:形态分析
分析语:分词
黏着语:分词+形态分析

基本任务

单词识别&形态还原
考虑特殊的单词:prof. 缩写 不规则变形
形态还原:时态 年代 序数词 货币符号 百分号
合成词还原 seven-year-old

形态分析的一般方法

  1. 查词典
  2. 根据不同的情况查找相对应的规则对单词进行处理,如果在字典找得到该单词的原型,则结束,如果找不到,就按照未登录词处理
  3. 完全陌生的词,按照未登录词处理

汉语自动分词

汉语分词问题

单字词与词素的区分
词与短语的区分

切分歧义

交集型歧义

中国人/为了/胜利
中国/人为/了/胜利
交集串的集合称为叫交集串链,交集串个数称为链长
e.g. 中国产品质量:中国/国产/产品/品质/质量 交集串为:国,产,品,质 ,交集串链为{国,产,品,质},链长为 4

组合型歧义

门/把/手/弄/坏/了
门/把手/弄/坏/了

未登录词的识别

  1. 人名,地名,组织名
  2. 新出现的词汇

汉语分词的基本规则:合并

成语:马马虎虎
定量结构:十三区
定名组合:六点
副词片语:或多或少
重叠结构:高高低低
不可拆分词:进出口

辅助规则:切分

  1. 有明显间隔符或语义分隔的
  2. 太过复杂,正反问句,动词带双音节补语:石油/化工/业,讨论/清楚,喜欢/不/喜欢
  3. 专有名词带普通名词:京沪/铁路

分词,标注的评价方法

测试:封闭测试/开放测试
评价指标:
正确率:测试结果中正确的切分占系统总输出的比例: P = n N × 100 % P= \frac{n}{N}\times100\% P=Nn×100%
召回率:系统输出的答案里面正确的个数 5 占总正确的个数,与文本分类里的 Recall 一样: R = n N × 100 R= \frac{n}{N}\times 100% R=Nn×100
F 测度:同上一章

汉语分词的基本算法

有词典切分/无词典切分
基于规则/基于统计

最大匹配法

-有词典切分,机械切分
正向最大匹配/逆向最大匹配/双向最大匹配
e.g.他是研究生物的一位科学家,假设词典当中的最长词汇长度为 7

正向最大匹配:

先进行最大长度的切分:他是研究生物的/一位化学家
随后逐渐缩小确定第一个切分词:他/是研究生物的一位化学家
然后接着上一个切分的词继续:他/是/研究生物的一位化学家
不断循环,可以得到:他/是/研究生/物/的/一/位/化学家

逆向最大匹配:

他/是/研究/生物/的/一/位/化学家
可以看出来正向匹配和逆向匹配之间存在着差别

优缺点

程序简单,但歧义的消解能力弱,切分准确率在 95% 左右。

最少分词法(最短路径法)

记待切分词串为 S = c 1 c 2 . . . c n S=c_1c_2...c_n S=c1c2...cn,其中 c 均为单个的字,n 为串的长度且大于等于 1,建立一个节点数为 n+1 的切分有向无环图:
1

在相邻节点间创建有向边,边对应词,如果 w = c i . . . c j w = c_i...c_j w=ci...cj为一个单词,则建立有向边(Vi-1,Vj),重复建立并查看是否新词,最后直到考虑单词的长度上限停止,从所有路径中选覆盖了所有节点的尽可能长的路径作为分词结果
e.g. 他说的确实对 可以分为
他/说的/确实/对
他/说/的确/实/对
seg=4<seg=5,选择第一个分词

优缺点

简单方便,需要的资源少,但是对于多条最短路径和长句子时的复杂度表现并不好

基于语言模型的分词方式

对于一个待切分的句子 S,W 是一种可能的切分: W ∗ = arg ⁡ w max ⁡ p ( W ∣ S ) = arg ⁡ w max ⁡ p ( W ) P ( S ∣ W ) W^* = \arg\limits_w \max p(W|S) = \arg\limits_w \max p(W)P(S|W) W=wargmaxp(WS)=wargmaxp(W)P(SW),其中 pW 为语言模型,另一个则为生成模型,用了朴素贝叶斯的理论

基于 HMM 的分词方式

基于字标注的分词方式

将分词过程看成是字的分类问题,每个字具有自己固定的词位:如词首(B)词中(M)词尾(E)或单独成词(S),使得处理未登录词也可以按照字的方向去看待

生成式与判别式

总的来说,通过大量数据构建样本的概率密度模型,并以此推理,就是生成式,建立在贝叶斯与统计基础上;如果直接使用观测值判断模型,而不考虑样本如何,那么就属于对后验概率建模的判别式

未登录词的识别

困难

未登录词的识别与描述规则太多;新出现的词速度太快

对于姓名的识别

  1. 名字用字范围广,分布松散,规律不明显
  2. 姓氏和名字可以拆开使用
  3. 许多名字中的字可以与其他字关联形成交集串
  4. 缺少文义分隔
    e.g. 祝/贺老板/生意/兴隆 or 祝贺/老板/生意/兴隆
    主要采用姓名库进行识别,并在一句中对可能出现姓名的概率估值进行计算,完成对姓名存在性的判断
计算概率估值

Cname = Xmn
F ( X ) = X 作为姓氏 X 出现的总次数 F(X) = \frac{X 作为姓氏}{X 出现的总次数} F(X)=X出现的总次数X作为姓氏
F ( m ) = m 作为名字中的第二个字 m 出现的总次数 F(m) = \frac{m 作为名字中的第二个字}{m 出现的总次数} F(m)=m出现的总次数m作为名字中的第二个字

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值