文章原稿
https://gitee.com/fakerlove/fundamentals-of-compiling
文章目录
5. 自底向上分析
基本算法思想:
若采用自左向右地扫描和分析输入串,那么自底向上的基本算法是:
从输入符号串开始,通过反复查找当前句型的句柄(最左简单短语),并利用有关规则进行规约。若能规约为文法的识别符号,则表示分析成功,输入符号串是文法的合法句子;否则有语法错误。
分析过程是 重复以下步骤 :
1、找出当前句型的句柄 x (或句柄的变形);
2、找出以 x 为右部的规则 X::= x ;
3、把 x 规约为X,产生语法树的一枝。
关键:找出当前句型的句柄 x (或其变形)
5.1 移进—规约分析
要点:设置符号栈,用来纪录分析的历史和现状 ,并根据所面临的状态,确定下一步动作是移进还是规约。
分析器:
分析过程:
注意:
这种方法我们是默认:
① 栈内符号串 + 未处理输入符号串 = 当前句型
② 句柄都在栈顶(未真正解决句柄的识别问题)
也就是说,移进-规约分析实际上是不靠谱 的,因为:
我们不能认为:对句型 xuy 而言,若有U∷= u,即U => u 就断定u是简单短语,u 就是句柄。而是要同时满足Z =*> xUy。
5.2 简单优先分析法
5.2.1 基本概念
通过语法树来理解这三个概念更加简单:
文法G1[S]:
S→AB
A→bB
A→Aa
B→a
B→Sb
语法树
-
短语:若S=*=>αAδ且A=+=>β,则称β是相对于非终结符A的句型αβδ的短语。
即:语法树中以非终结符的作为根的子树的叶子所组成的字符串。
如:ba是相对于非终结符A的句型AB的短语。句型baSb的短语有ba,a,Sb,baSb。
-
直接短语:若S=*=>αAδ且A=>β,则称β是相对于非终结符A的句型αβδ的直接短语。
即:语法树中以非终结符的作为根的子树,它的孩子都是叶子,没有其他子树。
如:Sb是相对于非终结符B的句型AB的短语。句型baSb的短语有a,Sb。
-
句柄:位于句型最左边的直接短语称为该句型的句柄。
即:位于语法树中最左边的直接短语。
如:句型baSb的句柄是a。
5.2.2 优先关系定义
-
X和Y优先级相等,表示为
X=·Y
,当且仅当G中存在产生式规则A=>···XY···。解读:X、Y的优先级相同,当XY存在一个句柄之中,它们将同时被归约。表现在语法树中S=·b。
优先级相等在语法树中
-
X优先级小于Y,表示为
X<·Y
,当且仅当G中存在产生式规则A=>···XB···,B=+=>Y···。解读:X优先级小于Y,当XY存在一个句型中时,它们将不可能出现在同一个句柄中,Y一定比X先被规约。表现在语法树中b<·a。
优先级小于语法树中
-
X优先级大于Y,表示为
X>·Y
,当且仅当G中存在产生式规则A=>··BD···,B=+=>···X,D=*=>Y···。解读:X优先级大于Y,当XY存在一个句型中时,它们将不可能出现在同一个句柄中,X一定比Y先被规约。表现在语法树中a>·S。
优先级大于在语法树中
- X和Y的优先级为空,表示在文法的任何句型中都不会出现该符号对相邻出现的情况。
注意:以上优先关系之间不具有对成性。
5.2.3 简单优先文法定义
一个文法是简单优先文法,需要满足以下两个条件:
- 在文法符号集中V,任意两个符号之间必须之后一种优先关系存在。(显然满足)
- 在文法中,两个产生式不能有相同的右部。
5.2.4 简单优先分析法的操作步骤
将输入输入串a1a2···an#依次压栈,不断比较栈顶符号ai和下一个待输入符号aj的优先级,若ai>·aj则进行下一步,否则重复此步骤。
解读:停止条件是ai>·aj表示前面输入串一定比后面先归约,所以只需要在前面找句柄就行了。
栈顶符号ai即为句柄尾,从此处向左寻找句柄头ak,满足ak-1<·ak。
解读:从后向前找ak-1<·ak表示ak之前的输入串一定比ai···ak后归约,由此确定现在就是要归约ai···ak。
由句柄ai···ak在文法中寻找右部为ai···ak的产生式;找到则将句柄替换为相应左部,找不到则说明该输入串不是该文法的句子。
重复以上步骤直到归约完成。
5.2.5 实例
由于还是以上面的例子不满足简单优先文法定义(b和b的优先关系不唯一),这里我们用另一个文法来举例。
文法G2[S]:
S→bAb ①
A→(B ②
A→a ③
B→Aa) ④输入串为b(aa)b#
- 首先我们做出文法符号的优先关系矩阵:
S | A | B | a | b | ( | ) | # | |
---|---|---|---|---|---|---|---|---|
S | ||||||||
A | = | = | ||||||
B | > | > | ||||||
a | > | > | = | |||||
b | = | < | < | |||||
( | < | = | < | < | ||||
) | > | > | ||||||
# |
这里#比其相邻所有符号的优先性都要小。
- 然后按照简单优先分析法进行归约:
步骤 | 栈S | 当前输入符 | 输入串剩余部分 | 动作 |
---|---|---|---|---|
1 | # | b | (aa)b# | 移进 |
2 | #b | ( | aa)b# | 移进 |
3 | #b( | a | a)b# | 移进 |
4 | #b(a | a | )b# | 归约③ |
5 | #b(A | a | )b# | 移进 |
6 | #b(Aa | ) | b# | 移进 |
7 | #b(Aa) | b | # | 归约④ |
8 | #b(B | b | # | 归约② |
9 | #bA | b | # | 移进 |
10 | #bAb | # | 归约① | |
11 | #S | # | 接受 |
其语法树如下:
语法树
5.2.3 缺点
缺点:适用范围小,分析表尺寸太大。
5.3 算符优先分析
算符优先分析法是一种经典的自底向上分析法,简单直观,并被广泛使用。开始主要是对表达式的分析,现在已不限于此,可以用于一大类上下文无关文法(称为OPG)。
特点:仿效四则运算过程,预先规定相邻终结符之间的优先
关系,然后利用这种优先关系来确定句型的句柄(或句柄的变式),并进行规约。
分析器:
优先关系矩阵示例:
分析步骤:
(1) 确定终结符之间的优先关系,构造优先关系矩阵。
优先关系:
(2)根据优先关系矩阵,利用算法:
当栈顶项(或次栈顶项)终结符的优先级大于栈外的终结符的优先级则进行规约,否则移进。
(3)出错情况
- 相邻终结符之间无优先关系。
- 对双目运算符进行规约时,符号栈中无足够项。
- 非正常结束状态。
重要说明:
(1)上述分析过程不一定是严格的最左规约(即不一定是规范规约)。也就是每次规约不一定是规约当前句型的句柄,而是句柄的变形,但也是短语。
(2)实际应用中,文法终结符间优先关系一般不用矩阵表示,而是采用两个优先函数来表示:
f — 栈内优先函数
g — 栈外优先函数
若 a < b 则令 f ( a ) < g ( b )
若a = b 则令 f ( a ) = g ( b )
若a > b 则令 f ( a ) > g ( b )
特点:
① 优先函数值不唯一。
② 优点:
• 节省内存空间。
若文法有n个终结符,则关系矩阵为n^2,而优先函数为2n。
• 易于比较:算法上容易实现。数与数比,不必查矩阵。
③ 缺点:可能掩盖某些错误。
5.4 算符优先分析法的进一步讨论
5.4.1 算符优先文法(OPG)
条件:
①若文法中无形如U∷= …VW…的规则,这里V, W∈Vn,则称G为OG文法,也就是算符文法。
即:算符文法不允许两个非终结符相邻!
②在任意两个终结符之间,优先关系唯一,则称该文法为算符优先文法(OPG)。
三种可能的优先关系的条件:
5.4.2 构造优先关系矩阵
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-EDp6WYTe-1621077811435)(picture/20190107145710981.png)]
构造FIRSTVT(U)的算法:
1)若有规则U∷= b…或U∷= V b… 则b∈FIRSTVT(U)(FIRSTVT的定义中一步推导)
2)若有规则U∷= V…且 b∈FIRSTVT(V), 则b∈FIRSTVT(U)(FIRSTVT的定义中多步推导)
有这两个集合后,按照以下规则确定这两种优先关系:
构造LASTVT(U)的算法:
1)若有规则U::=…a 或 U::=…aV,则a∈LASTVT(U)
2)若有规则U::=…V,且a∈LASTVT(V) 则a∈LASTVT(U)
构造优先关系矩阵的算法
优先关系矩阵构造的自然语言描述
(1)构造出FirstVt、LastVt集合。
(2)找出规则右部所有VtVn、VnVt的组合。
(3)对每个(2)中组合找出Vt和FirstVt集或LastVt集的关系。
(4)整理关系,填表。
5.4.3 算符优先分析算法的实现
先定义优先级,在分析过程中通过比较相邻运算符之间的优先级来确定句型的“句柄”并进行归约。
这里的“句柄”实际上叫做:最左素短语。
素短语
定义:文法G的句型的素短语是一个短语。它至少包含有一个终结符号,并且除它自身以外不再包含其它素短语。
个人理解:含有Vt的短语单元:不能从它里面截出更小的含Vt短语。
注意:素短语可以不是简单短语!
最左素短语
设有OPG文法句型为:
#N1 a1 N2 a2 …Nn an Nn+1#
其中Ni 为非终结符(可以为空),ai 为终结符。
注意:出现在 aj 左端和 ai 右端的非终结符号一定属于这个素短语,因为我们的运算是中缀形式给出的(OPG文法的特点)。
个人理解:如果不把这两个Vn纳入素短语,经多步规约到某一步后,必然会出现两个Vn相邻情况,且其他情况的短语都已经规约完成了,而OPG不允许有这种规则右部,无法继续规约。
分析过程:
基本部分是找句型的最左子串(最左素短语)并进行规约:
①当栈内终结符的优先级<或=栈外终结符的优先级时,移进;
②当栈内终结符的优先级>栈外终结符的优先级时,表明找到了素短语的尾,再往前找其头,并进行规约。
③接受条件为符号栈只剩#和开始符合,输入串只剩#。