编译原理学习笔记（二）——高级语言及其语法描述

最新推荐文章于 2024-03-05 20:45:08 发布

Lan-Mao

最新推荐文章于 2024-03-05 20:45:08 发布

阅读量845

点赞数 2

分类专栏：编译原理文章标签：编译原理

本文链接：https://blog.csdn.net/wuwuhengheng/article/details/79669908

版权

编译原理专栏收录该内容

6 篇文章 1 订阅

订阅专栏

学习笔记
一、程序语言的定义
语法
语义

二、上下文无关语法
三、语法分析树与二义性

课后习题
感悟

学习笔记

一、程序语言的定义

任何语言实现的基础是语言的定义
程序语言主要由语法和语义两方面定义

语法

字母表：一个有限的字符集
单词结构：语言中具有独立意义的最基本结构
语法单位 ：由单词符号构成的结构
一般包括：表达式，语句，分程序，函数，程序
语法是一组规则，用这组规则可以产生形式上正确的程序，由此法规则和语法规则组成
词法规则：合法单词的构成规则，就是如何从字母表中选择字符构成一个合法单词，用有限状态自动机或正规式描述。
语法规则：合法程序的构成规则，就是如何把各个也就是如何把各个单词符号组成更大的语法单位（语句、程序），用上下文无关文法进行描述

语义

对于一个语言来说，不仅要给出它的词法、语法规则，而且要定义它的单词符号和语法单位的意义。这就是语义问题。
语义是指这样的一组规则，使用它可以定义一个程序的意义。
语义描述方法：属性文法和基于属性文法的语法制导翻译方法

二、上下文无关语法

字母表：由若干元素组成的有限非空集合，用表示，它的每个元素称为一个符号。
符号串：由∑中的符号所构成的有穷序列。
符号串的前缀和后缀及子串：设x是一个符号串，将x的尾（前）部删掉几个字符后形成的符号串，称为x的前（后）缀；从一个符号串中删去他的一个前缀和后缀后所剩下部分称为x的子串
空字：不包含符号的序列称为空字，记为⊱。
符号串的连接运算设x和y是两个符号串，如果将y直接拼接在x之后，称这种操作为符号串的连接
符号串的方幂一个符号串与其自身的n-1的任意连接称为次符号串的n次幂，记作：x^n
特别地:x^0=∈；
符号串集合V自身的n次（连接）积记为：
Vn = V V…V (n个V)
规定 V0 = {∈}.
V的闭包
令： V* = V0∪V1∪V2∪…
称 V*是V的闭包
V的正则包（正闭包，正则闭包）：
记V+ = VV*, 称 V+是V的正则包，即V＋=V1∪V2∪V3∪…
归纳起来，一个上下文无关文法G包括四个组成部分：一组终结符号，一组非终结符，一个开始符号，以及一组产生式。
形式上定义一个上下文无关文法Ｇ是一个四元式（ＶＴ，ＶＮ，Ｓ，P）
所谓终结符号乃是组成语言的基本符号，即在程序语言中以前屡次提到的单词符号，如基本字，标识符，常数，算符和界符等.
所谓非终结符号（也称语法变量）用来代表语法范畴。
开始符号是一个特殊的非终结符号，它代表所定义的语言中我们最感兴趣的语法范畴
产生式（也称为产生规则或简称规则）是定义语法范畴的一种书写规则。
一个产生式的形式是 A→ α
其中箭头左边的A是一个非终结符，称为产生式的左部符号；
箭头右边的α是终结符号或与非终结符号组成的一符号串，称为产生式的右部，或称候选式。
假定G是一个文法，S是它的开始符号。
如果S ( (表示从S出发，经0步或若干步可推出），则称是一个句型。
仅含终结符号的句型是一个句子。
文法G所产生的句子的全体是一个语言，将它记为L(G).

三、语法分析树与二义性

语法分析树：简称语法树。用来表示推导过程。
1. 语法树的根结由开始符号所标记。
2. 随着推导的展开，当某个非终结符被它的某个候选式所替换时，这个非终结符的相应结就产生了下一代新结点。每个新结点和其父亲结点间都有一条连线。
3. 在一棵语法树生长过程中的任何时刻，所有那些没有后代的端末结自左至右排列起来就是一个句型。
如果一个文法存在某个句子对应两棵不同的语法树，则称这个文法是二义的。
文法二义性的问题：
- 文法二义不等于语言二义
- 文法的二义性是不可判定的
- 文法的二义性证明：找出一个句子，它有两个不同的最左推导或最右推导
- 文法二义性的消除：给每个产生式定义优先级
消除文法二义性示例

一个二义文法
E—>E+E
E—>E*E
E—>(E)
E—>i
二义原因分析
没有定义运算符优先级和结合性
消除方法
定义优先级和结合性
引入新的非终结符，建立新的产生式
消除下面文法中的二义性（左结合）

原文法消除后
E—>E+E E—>E+T
E—>i T—>i
上下文无关文法的几点限制
- 文法中不含任何下面形式的产生式： P→P因为这种产生式除了产生二义性外没有任何用处
- 每个非终结符P必须有用处
  这一方面意味着，必须存在含P的句型；也就是，从开始符号出发，存在推导s⇨*αPβ
  另一方面意味着，必须存在终结符串 $γ∈V_T^*$ ，使得P $\Rightarrow^+γ$ ；也就是，对于P不存在永不终结的回路
形式语言鸟瞰
乔姆斯基把文法分为四种类型：0型,1型,2型,3型
0型文法
0型强于1型，1型强于2型，2型强于3型。这几文法的差别在于对产生式施加不同的限制
$G=(V_T,V_N,S,P)$ 是一个0型文法，如果它的每个产生式是这样的结构
α $\to$ β
α∈(V $_N∪V_T)^*$ 且至少有一个非终结符，而β∈(V $_N∪V_T)^*$
1型文法
产生式的形式为α→β
其中|α|≤|β|，S→ε除外，但S不得出现与任何产生式的右部
另一种定义形式：
$αAβ→αγβ$
该文法所描述的语言又称上下文有关语言
2型文法
特点：该文法的产生式满足：
A→α
A为非终结符，α为终结符和非终结符组成的符号串，可以是空串
该文法又称为上下文无关文法
该文法所描述的语言又称为上下文无关语言
3型文法
特点：该文法的产生式满足：
A→αB或A→Bα
AA为非终结符， α为终结符组成的符号串，可以是空串
该文法又称为右线性文法，或左线性文法，通称正规文法
该文法所描述的语言又称为正规语言（用来描述词法规则）

原文法	消除后
E—>E+E	E—>E+T
E—>i	T—>i

课后习题

令文法 $G_6$ 为
N→D|ND
D→0|1|2|3|4|5|6|7|8|9
（1） $G_6$ 的语言L( $G_6$ )是什么？
（2）给出句子0127、37、568的最左推导和最右推导
解：
（1）L( $G_6$ )=0~9数字组成的字符串
（2）最左推导：
N⇨ND⇨NDD⇨NDDD⇨DDDD⇨0DDD⇨01DD⇨012D⇨0127
N⇨ND⇨DD⇨3D⇨34
N⇨ND⇨NDD⇨DDD⇨5DD⇨56D⇨568
最右推导：
N⇨ND⇨N7⇨ND7⇨N27⇨ND27⇨N127⇨D127⇨0127
N⇨ND⇨N4⇨D4⇨34
N⇨ND⇨N8⇨ND8⇨N68⇨D68⇨568
写一个文法使其语言是奇数集，且每个奇数不以0开头。
解：
G(S):
S→A|BCA
A→1|3|5|7|9
B→A|2|4|6|8
C→B|0|ε|CC
令文法为
E→T|E+T|E-T
T→F|T*F|T/F
F→(E)|i
（1）给出i+i*i、i*(i+i)的最左推导和最右推导
（2）给出i+i+i、i+i*i和i-i-i的语法树
解：
(1)最左推导
E→E+T→T+T→F+T→i+T→I+T*F→i+F*F→i+i*F→i+i*i
E→T→T*F→F*F→i*F→i*(E)→i*(E+T)→i*(F+T)→i*(i+T)→i*(i+F)→i*(i+i)
最右推导
E→E+T→E+T*F→E+T*i→E+F*i→E+i*i→T+i*i→F+i*i→i+i*i
E→T→T*F→T*(E)→T*(E+T)→T*(E+F)→T*(E+i)→T*(T+i)→T*(F+i)→T*(i+i)→F*(i+i)→i*(i+i)
（2）
证明下面的文法是二义的S→iSeS|iS|i
iiiei
S→iSeS→iiSeS→iiieS→iiiei
S→iS→iISeS→iiieS→iiiei
改为无二义性的S→SS|(S)|()
S→TS|T
T→(S)|()
L1:S→ABC A→a|aA B→b|bB C→c|cC|ε
L2:S→ABC A→a|aA|ε B→b|bB C→c|cC
L3:S→A|B|AB A→aAb|ε B→aBb|ε
L4:S→AB A→1|1A|ε B→0A0|ε

感悟

编译原理是一门基于语言规则的总结性科学，学习这门课将会对我们学习编程进阶提供必要的帮助
（逃 ε=ε=ε=(~￣▽￣)~
(→_→)

Lan-Mao

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
编译原理学习笔记（二）——高级语言及其语法描述

学习笔记一、程序语言的定义语法语义二、上下文无关语法三、语法分析树与二义性课后习题感悟学习笔记一、程序语言的定义任何语言实现的基础是语言的定义程序语言主要由语法和语义两方面定义语法字母表：一个有限的字符集单词结构：语言中具有独立意义的最基本结构语法单位：由单词符号构成的结构一般包括：表达式，语句，分程序...
复制链接

扫一扫