CS143 3. Lexical Analysis

hhA0

已于 2022-09-11 15:14:06 修改

阅读量141

点赞数

分类专栏：编译原理文章标签：正则表达式

于 2022-09-09 17:42:01 首次发布

本文链接：https://blog.csdn.net/weixin_53369402/article/details/126787008

版权

8 篇文章 1 订阅

订阅专栏

Lexcial analysis（词法分析）即将一个代码段中的字符或字符串（token）进行分类。

what is token? a token class corresponds to a set of substrings

词法分析完成后，分析器会将结果给后面的解析器（Parser），解析器会根据不同的分类对不同类的token做不一样的处理，因此需要词法分析。

一个简单的例子：

// C++
if (i == j)
    z = 0;
else 
    z = 1;

将上面的代码段中的字符先按字符串形式写出：

if (i == j)\n\tz = 0;\nelse\n\tz = 1;

然后进行划分（用|分隔）：

|if| |(|i| |==| |j|)|\n|\t|z| |=| |0|;|\n|else|\n|\t|z| |=| |1|;|

最后再对每个子串分类，最后产生如<keyword, if>这样的<key-value>对。
难点：

cin >> a; // 1

foo<bar<int>> // 2

在1和2中都出现了>>，但意义完全不同，在1中它是输入流的一个操作符，而2中却不应该看成一个整体。

如何划分，有时候还要看后面的内容是什么，如，==被看作是一个整体，但解析到第一个=时，我们不知道是否应该就此停止，将这个=单独作为一个token，还是说将其和后面的内容结合，为了辨识这一点，需要看后面串的内容。

为了解决困难，需要引入正则语言（regression language）。

设集合A和B为字符、字符串、数字的集合，空字符串集记作 $\epsilon$ （ $\epsilon = \{$ “” $\}$ ，但不是空集），有如下计算：

设r和s为正则表达式，L(r)和L(s)分别为r和s所能表达的字符串集合，则：

用正则表达式表示：

用正则表达式表示：

关注

专栏目录