第六章词法分析与词性标注

最新推荐文章于 2023-03-15 17:48:37 发布

右边是我女神

最新推荐文章于 2023-03-15 17:48:37 发布

阅读量1.2k

点赞数 1

分类专栏：自然语言处理文章标签： nlp

本文链接：https://blog.csdn.net/weixin_46365033/article/details/121896824

版权

自然语言处理专栏收录该内容

8 篇文章

订阅专栏

本文探讨了汉语自动分词的策略，包括形态分析、分词方法（最大匹配、最少分词、统计模型），以及词性标注的难点、评价指标和常见问题。重点介绍了歧义处理、未登录词识别和词性标注的规则。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

三种语系*

屈折语：用词的形态变化表示语法关系；
黏着语：词内有专门表示语法意义的附加成分，词根或词干与附加成分结合不紧密；
孤立语/分析语：形态变化少，语法关系靠词序和虚词表示。

他们的词法分析方式也不同：

词的形态还原；
分词+形态还原；
分词；

英语的形态分析

包含以下五种情况：

特殊形式的单词识别，如：let’s，I’ll…
有规律变化单词的形态还原，如：ed,ing,s…
动词、名词、形容词、副词不规则变化，如：choose、chose、chosen，axis、axes…
对于表示年代、时间、百分数、货币、序数词的数字形态还原，如：¥20…;
合成词的形态还原，如：Human-computer…;

形态分析的一般方法*

查词典，如果词典中有该词，直接确定该词的原型；
根据不同情况查找相应规则对单词进行还原处理，如果还原后在词典中找到该词，则得到该词原型；如果找不到相应变换规则或者变换后词典中仍然查不到该词，则作为未登录词处理；
进入未登录词处理模块。

汉语自动分词概要

重要性

自动分词是汉语句子分析的重要基础；
词语的分析具有广泛的应用统计；
文献处理以词语为文本特征；
以词定字，以字定音。

主要问题*

汉语分词规范问题

“词是什么”、“什么是词”这是两个基本问题。

困难主要来自于两方面：

单字词和词素之间的划界；
词与短语的划界。

歧义切分字段处理*

交集型切分歧义：汉字串AJB被称为交集型切分歧义，如果满足AJ、BJ同时为词，此时J被称作交集串。

链长：一个交集型切分歧义所拥有的交集串的集合称为交集串链，它的个数称为链长。

题型十四：判断链长*

请添加图片描述

组合型歧义：汉字串AB称作组合型切分歧义，如果满足A,B,AB同时为词。
比如：将来、现在、才能、学生会等；

未登录词的识别

人名、地名、组织机构名；
新出现的词汇、术语、个别俗语。

基本原则*

语义上无法由组合成分直接相加而得到的字串应该合并为一个分词单位；（比如半斤八两，半斤和八两都是数量，但合在一起表示其他的意思）
语类无法由组合成分直接得到的字串应该合并为一个分词单位（好吃（字串的语法功能不符合组合规律）、游水（字串的内部结构不符合语法规律））。

辅助原则：

有明显分隔符标记的应该切分（上、下课 —— 上/下课）；
附着性语素和前后词合并为一个分词单位（员：检查员）；
使用频率高或共现率高的字串尽量合并为一个分词单位（收放）；
双音节加单音节的偏正式名词尽量和并为一个分词单位（着眼点）；
内部结构复杂、合并起来过于冗长的词尽量切分（参加/不/参加）；

分词与词性标注结果评价方法

两种测试：

封闭测试/开放测试；
专项测试/总体测试。

评价指标*

精确度

测试结果中，正确切分或标注的个数占系统所有输出结果的比例。假设系统输出N个，其中，正确的结果为n个，那么 $P=\frac{n}{N}\times 100\%$

全部输出结果就是 $T P + N P$ ,正确结果就是 $T P$ 。

召回率

测试结果中正确结果的个数占标准答案的比例，假设系统输出N个结果，其中，正确的结果为n个，而标准答案的个数为M个，那么 $R=\frac{n}{M}\times100\%$

标准答案就是 $T P + T N$ 。

F-Measure

$F=\frac{\beta^2+1}{\beta^2}\frac{P\times R}{P+R}$

请添加图片描述

题型十五：评价指标计算

请添加图片描述

自动分词基本算法

有词典切分/无词典切分；
基于规则的方法/基于统计的方法。

最大匹配法（Maximum Matching）*

有词典切分。

正向最大匹配算法（FMM）；
逆向最大匹配算法（BMM）；
双向最大匹配算法（MM）。

假设句子： $S=c_1c_2...c_n$ ，某一词： $w_i=c_1c_2...c_m$ ，m为词典中最长词的字数。

FMM算法描述

令 $i = 0$ ，当前指针 $p_i$ 指向输入字串的初始位置，执行下面操作：
计算当前指针 $p_i$ 到字串末端的字数（即未被切分字串的长度）n，如果 $n = 1$ ，转4,结束算法。否则，令m=词典中最长单词的字数，如果 $n\lt m$ ，令 $m = n$ ;
从当前 $p_i$ 起取m个汉字作为词 $w_i$ ，判断：
a. 如果 $w_i$ 确实是词典中的词，则在 $w_i$ 后面添加一个切分标志，转c；
b. 如果 $w_i$ 不是词典中的词且 $w_i$ 的长度大于1，将 $w_i$ 从右端去掉一个字，转a；否则（ $w_i$ 的长度等于1），则在 $w_i$ 后面添加一个切分标志，将 $w_i$ 作为单字词添加到词典中，执行c；
c. 根据 $w_i$ 的长度修改指针 $p_i$ 的位置，如果 $p_i$ 指向字串末端，转4，否则 $i = i + 1$ ，返回2；
输出切分结果，结束分词程序。

首先，进行初始化；接着判断是否结束，若未结束设置字长；取汉字进行分词（3步走，在不在词典中）。

优点：

程序简单易行，开发周期短；
仅需要很少的语言资源，不需要任何词法、句法、语义资源；
缺点：
歧义消解能力差；
切分正确率不高，一般在95%。

最少分词法（最短路径法）*

根据字典。

基本思想：请添加图片描述

算法描述：

相邻节点 $v_{k-1},v_k$ 之间建立有向边 $v_{k-1},v_k>$ ，边对应的词默认为 $c_k(k=1,2,...,n)$ 。
如果 $w=c_ic_{i+1}...c_j(0\lt i\lt j\le n)$ 是一个词，则节点 $v_{i-1},v_j$ 之间建立有向边<v_{i-1},v_j>,边对应的词为 $w$ 。
重复步骤2，直到没有新路径产生。
从产生的所有路径中，选择路径最短作为最终分词结果。