第七章句法分析

最新推荐文章于 2025-03-27 23:25:02 发布

右边是我女神

最新推荐文章于 2025-03-27 23:25:02 发布

阅读量7.5k

点赞数 19

分类专栏：自然语言处理文章标签：自然语言处理数据挖掘人工智能

本文链接：https://blog.csdn.net/weixin_46365033/article/details/121906082

版权

自然语言处理专栏收录该内容

8 篇文章

订阅专栏

文章目录

概述

任务：句法分析的任务就是识别句子的句法结构。

句法分析分为句法结构分析和依存关系分析。

句法结构分析又可以称为短语结构分析；获取整个句子的句法结构为目的的句法分析称为完全句法分析；获得局部成分为目的的句法分析称为局部句法分析。

依存关系分析又称为依存结构分析。

短语结构分析

句法结构分析的定义是：对输入的单词序列判断其构成是否合乎给定的语法。

句法结构通常用树状数据结构表示，通常称为句法分析树。

请添加图片描述

完成这种分析过程的程序被称为句法结构分析器。

句法结构分析的任务有三个：

判断输入的字符串是否属于否种语言；
消除输入句子中词法和结构等方面的歧义；
分析输入句子的内部结构，如成分构成、上下文关系等；

句法结构分析也称为语言识别/句子识别。

通常任务1是已知的，所以我们只关注任务3.

短语句法分析的目的是：实现高正确率、高鲁棒性、高速度的自动句法分析过程；

困难是：自然语言中存在大量的复杂的结构歧义。

结构歧义就是在绪论当中所提到结构歧义问题，在英语中主要是由于介词导致，随着介词数量的增多，歧义数量呈指数级增长，可用开塔兰数进行计算。

句法结构分析的方法可以分为基于规则的分析方法和基于统计的分析方法。

基于规则的分析方法的基本思路就是由人工组织语法规则，如线图分析法和CYK都是典型的基于规则的分析方法。

$C_N = C_{2n}^n\frac{1}{n+1}=\frac{(2n)!}{(n!)^2(n+1)}$

线图分析法*

三种策略：

自底向上；
从上到下；
将1和2结合。

自底向上的线图分析法（基于CFG）

准备阶段：

给定一组CFG规则： $XP\to\alpha_1...\alpha_n$ ;
给定一个句子的词性序列： $S=W_1W_2...W_n$ ;
构造一个线图：一组结点和边的集合；（这有点像汉语分词方法中的最短路径法，也是不断的合并）
建立一个二维表：记录每一条边的起始位置和终止位置。

操作部分：
查看任意相邻几条边上的词性串是否与某条重写的规则的右部相同（相当于右边的内容可以规约到左边）：

如果相同，则增加一条新的跨越原来相应的边，新增加边上的标记为这条重写规则的头。
重复执行1，直到没有新的边产生。

点规则

所给规则的右端，有几个符号得到了匹配，也就是表示规则右部被规约的程度。可以理解为点的位置左边都是匹配到的规则的一部分，如果点的左边是规则右部的所有内容，那么说明规则右边已经被完全匹配。根据点规则，有以下两种边：

活性边：规则右部未被完全匹配；
非活性边：规则右部已经被完全匹配。

请添加图片描述
点规则就是一个记号，表示这个规则右侧匹配到哪里了。

如果匹配完了，那么规则下面这个边叫做非活性边，反之叫活性边。

点规则是以规则为对象的。

数据结构

线图(Chart)：保存分析过程中已经建立的成分（包含终结符和非终结符）、位置（包括起点和终点），通常以 $n\times n$ 的数组表示，n为句子包含的词数。

代理表(Agenda)，记录刚刚得到的重写规则代表的成分，这些重写规则的右端符号串与输入词性串中的一段完全匹配，通常以栈或线性队列表示。处于活动状态。

活动边集(ActiveArc)：记录那些右端符号串与输入串的某一段相匹配，但还未完全匹配的重写规则，通常以数组或列表存储。

算法描述

从输入串的起始位置到最后位置，循环执行如下步骤：

如果待处理表(Agenda)为空，则找到下一个位置上的词，将该词对应的(所有)词类X（一个词可以有名词、动词等等）附以 $(i, j)$ 作为元素放到待处理表中，即 $X (i, j)$ 。其中， $i, j$ 分别是该词的起始位置和终止位置， $j\gt i$ ， $j - i$ 为该词的长度。（说明以这个词的这个词性为起始位置，长度为 $j - i$ 这个个词段等待被处理。）
从待处理表中取出一个元素 $X (i, j)$ ，根据数据结构的不同，取出的元素也会有差别。
对于每条规则 $A\to X\gamma$ ，将 $A\to X\circ \gamma(i,j)$ 加入活动边集(ActiveArc)，然后调用扩展弧子程序。

扩展弧子程序：

将X插入图表(Chart)的(i,j)位置中；
对于活动边集中每个位置为 $(k,j)(0\le k\lt i)$ 的点规则，如果该规则具有如下形式： $A\to \alpha\circ X\beta$ ，如果 $A = S$ ，则把 $S (1, n + 1)$ 加入到Chart中，并给出一个完整的分析结果；否则将 $A (k, j)$ 加入到Agenda表中。
对于每个位置为 $(k, i)$ 的点规则: $A\to\alpha\circ X\beta$ ，则将 $A\to\alpha\circ X\beta(k,j)$ 加入到活动边集。

题型十六：使用线图分析法构建语法分析树

请添加图片描述
在这里插入图片描述

请添加图片描述

我对于算法的过程理解

给定一组CFG规则（参见第三章-上下文无关文法）；
形态转换（参见第六章-一般形态转换方法）；
词性标注（参见第六章-词性标注），得到词性序列；
构建原始线图；
添加Chart（保存分析中已经建立的成分，通过线图可视化）；
添加Agenda（保存待扩展的词性）；
添加ActiveArc（保存相关规则）；
检查Agenda是否为空，若为空，则从线图中扩展 $X (i, j)$ （Agenda中元素的来源为扩展弧程序扩展时所记录的元素）；
从Agenda中取出元素（堆栈为FILO，队列为FIFO）；
从规则集中匹配规则，如果有，加入ActiveArc（无新的活动边加入）；
进入扩展弧程序，首先将Agenda中取出的元素 $X (i, j)$ 放到Chart（并绘制线图）；
接着检查ActiveArc中是否有可以扩展的规则，如果没有，则退出，回到5。如果有，首先判断规约的结果是否为S，如果是的话，就把 $S (1, n + 1)$ 加入到Chart，退出程序。如果不是的话，将 $X^{'} (k, j)$ 加入到Agenda；
12步的前两个条件都通过后，来到第13，将扩展的规则写入到ActiveArc。

这个算法的核心，在于从规则集中匹配规则与从ActiveArc中扩展规则，一步步得到最终的初始符S。

需要注意的是：

手写的时候可以在最后一列加上ACT，说明完成第12步所作出的抉择（退出/扩展）；
不要忘记始终把 $(i, j)$ 写在旁边；
一步一步扩展，不要跳步。

算法评价

优点：

算法简单，容易实现，开发周期短（这与FMM的优点是一样的）；

缺点：

算法效率低；
需要高质量的规则；
难以区分歧义结构（这与最短路径，最大匹配是一样的）；

CYK算法*

首先，需要对Chomsky文法进行范式化：
$A\to w~~or~~A\to BC$
其中， $A,B,C\in V_N$ ， $w\in V_T,G=(V_N,V_T,P,S)$ 。

自下而上的分析方法。

核心是构造 $(n+1)\times(n+1)$ 识别矩阵，其中 $s$ 是输入句子长度。假设输入句子 $x=w_1w_2...w_n$ ， $w_i$ 为构成句子的单词， $n = ∣ x ∣$ 。

识别矩阵的构成

方阵对角线以下全部为0；
主对角线以上的元素由文法G的非终结符构成；
主对角线上的元素由输入句子的终结符号(单词)构成。

请添加图片描述

识别句子构造步骤

首先构造主对角线，令 $t_{0,0}$ ，然后，从 $t_{1,1}$ 到 $t_{n,n}$ 在主对角线的位置上依次放入输入句子 $x$ 的单词 $w_i$ 。
构造主对角线以上仅靠主对角线的元素 $t_{i,i+1}$ ，其中， $i = 0, 1, 2, . . ., n - 1$ 。对于输入句子 $x=w_1w_2...w_n$ ，从 $w_1$ 开始分析。（从左上到右下进行分析！）
按平行于主对角线的方向，一层一层地向上填写矩阵的各个元素 $t_{i,j}$ ，其中 $i = 0, 1, 2, . . ., n - d, j = d + i, d = 2, 3, . . ., n$ 。如果存在一个正整数 $k$ ， $i+1\le k\le j-1$ ，文法G的规则集中有产生式，文法G的规则集中有产生式 $A\to BC$ ，并且， $B\in t_{i,k},C\in t_{k,j}$ ，那么，将A写到矩阵 $t_{i,j}$ 位置上。