编译原理（3）：词法分析

最新推荐文章于 2023-09-19 00:15:00 发布

逢青丶

最新推荐文章于 2023-09-19 00:15:00 发布

阅读量2.3k

点赞数 3

分类专栏：编译原理

本文链接：https://blog.csdn.net/weixin_44226857/article/details/104216502

版权

编译原理专栏收录该内容

10 篇文章 18 订阅

订阅专栏

声明：本系列文章，是根据中国大学MOOC网哈工大的编译原理这门课学习而成的学习笔记。

一、正则表达式

正则表达式

语言是一个集合，因此我们可以在语言上进行多种集合运算。比如说并运算，乘积运算（即连接运算），闭包运算等等。接下来我们看一个语言的例子，如下图所示：

这个语言的字首是字母 a，接下来连接一个任意长度的 a,b串，再接下来连接一个空串。连接一个空串就代表句子已经结束了。除此之外，我们还可以连接一个点号（.）或者下划线（_）或者一个长度大于等于1 的 a,b串。

在这里插入图片描述

正则表达式的定义

在这里插入图片描述

十进制整数的正则表达式：第一个符号是1~9中的一个数字，接下来连接若干个 0~9 的数字，或者连接符号 0。
八进制整数的正则表达式：第一个符号是数字0，第二个符号是1~7中的一个数字，接下来连接若干个 0~7 中的数字。
十六进制整数的正则表达式：第一个符号是0，第二个符号是 x，第三个符号是1_{f中的符号，接下来连接若干个0}f 中的符号。

正则语言

可以用RE定义的语言叫做正则语言(regular language)或正则集合(regular set)
正则表达式也遵循一些代数定律，如下图所示：

正则文法与正则表达式等价

对任何正则文法 G，存在定义同一语言的正则表达式 r
对任何正则表达式 r，存在生成同一语言的正则文法 G

二、正则定义(Regular Definition)

为了方便起见，我们可以给某些正则表达式命名，像使用字母表中的符号一样，使用这些名字来构造正则表达式。

digit，表示0~9中的某个数字
letter_，表示一个字母（小写字母或大写字母）和一个下划线。
id，首先是一个 letter_，接下来连接一个 letter _ 或 digit 构成的字符串。这个表达式表示的是字母打头的字符数字串。（正是标识符的定义）

digit，表示一个数字
digits，digit 连接上一个 digit 的克林闭包，表示的是一个长度>=1 的数字串。
optionalFraction，点号（.）后面连接一个 digits 或这个表达式是一个空串。（这个符号表示的是一个小数部分，或一个空串）代表可选的小数部分。
optionalExponent，大写字母 E 后面连接一个 + （正号）或一个 -（负号）或直接连接一个长度大于等于1 的数字串（digits），或者这个表达式为空串。可选的指数部分。
number，长度大于等于1 的数字串，连接一个可选的小数部分，连接一个可选的指数部分。