顾名思义,一个命令式语言是由一个个“命令”为单元组成,不过一般很少用命令这个词,而是细分一下,比较低级的语言用指令(instruction),高低的语言一般认为是一个语句(statement,以后简称stmt),词法分析只将一段高级语言代码分解成一个个词,接下来还要做语句层面的分析,最终目标是生成抽象语法树(ast)
代码:
这段代码含有四条语句,两个赋值,一个while和一个print,其中while里面的内容并不会被展开,可以认为编译过后,这段代码会生成一个长度为4的stmt_list,包含四个stmt对象
stmt对象有各种类型,比如赋值、for循环、while循环等,每种类型包含的内容也不同,但一般来说是包含stmt和表达式(expression,以后简称expr)。又因为所有stmt要放在一个list,所以它们应该有同一个基类或实现同一个接口(java代码表示):
整个语法分析就是分析出一个stmt的list:
语法分析过程,编译原理一般都会说用上下文无关语言,BNF范式等,实际上这个分析和词法分析有类似的地方,都可以用自动机来做,只不过一个是正则语言的自动机,一个需要用下推自动机,因为可能有任意深度的语句包含,这里我们可以用递归来实现
另外,如果认真设计语法,也能很大简化这个过程,实际上语法分析和我们阅读代码在“可读性”上有很大的一致性,比如分支语句:
下面这行是我举的例子,并不是某个我知道的语言的语法。这两个例子都可以是一条分支语句,在日常说话中,我们可能会说出后面这种类似语法,但对于代码而言,选择前者可读性较好,因为如果{}里面很长,我们得到很后面才知道这句语句是什么意思,对编译器也是一样,if写在前面能及早确定stmt类型,因此不妨考察下各种语言,绝大多数语句都是关键字开头的,所以stmt_list的分析过程大致可以写成这样(伪代码):
代码:
a = 1;
s = 0;
while (a <= 100)
{
if (a % 2 == 0)
{
continue;
}
s = s + a;
}
print s;
这段代码含有四条语句,两个赋值,一个while和一个print,其中while里面的内容并不会被展开,可以认为编译过后,这段代码会生成一个长度为4的stmt_list,包含四个stmt对象
stmt对象有各种类型,比如赋值、for循环、while循环等,每种类型包含的内容也不同,但一般来说是包含stmt和表达式(expression,以后简称expr)。又因为所有stmt要放在一个list,所以它们应该有同一个基类或实现同一个接口(java代码表示):
class Stmt
{
RetType execute();
}
整个语法分析就是分析出一个stmt的list:
StmtList build_stmt_list(TokenList token_list);
语法分析过程,编译原理一般都会说用上下文无关语言,BNF范式等,实际上这个分析和词法分析有类似的地方,都可以用自动机来做,只不过一个是正则语言的自动机,一个需要用下推自动机,因为可能有任意深度的语句包含,这里我们可以用递归来实现
另外,如果认真设计语法,也能很大简化这个过程,实际上语法分析和我们阅读代码在“可读性”上有很大的一致性,比如分支语句:
if (x) {...} else
{...} if (x) else
下面这行是我举的例子,并不是某个我知道的语言的语法。这两个例子都可以是一条分支语句,在日常说话中,我们可能会说出后面这种类似语法,但对于代码而言,选择前者可读性较好,因为如果{}里面很长,我们得到很后面才知道这句语句是什么意思,对编译器也是一样,if写在前面能及早确定stmt类型,因此不妨考察下各种语言,绝大多数语句都是关键字开头的,所以stmt_list的分析过程大致可以写成这样(伪代码):