第一章
简介
一个语言翻译程序是把用源语言书写的程序翻译成等价目标语言的程序.源语言通常是一个高级的编程语言,而目标语言通常是一个真实计算机的机器语言.从语用的观点上看,翻译程序定义了一个有语义的编程语言,它把特定的语义操作转成可计算模式操作到真实或虚拟的机器上.这一章节展示上下文无法文法在构造语言编译器时的用途.因为翻译是以源语言语义制导,所以翻译也称作"语法制导"
一个编译器是一个高级语言和真实机器语言的翻译程序.通常编译器包括几个阶段,每个阶段的输出作为下一阶段的输入.
词法分析阶段(扫瞄程序)收集字符成词法单元或记号.词法分析阶段的输入是一个字符 流.而输出是一记号流.正则表达式被用于定义可由扫瞄程序(词法分析器)识别的记号.扫 瞄程序用一个有限自动机实现.
Lex和FLex是生成扫瞄程序的工具:具有词法模式的文本程序.Flex是一个更快的Lex版本.在这一章,Lex/Flex指生成工具的任何一个(就是把其看成同一工具)有关Lex/Flex的附录由Vern Paxon合成一个操作页面"flexdoc"
语法分析把记号合成语法单元.语法分析器的输出是一个用来表示程序的语法分析树.上 下文无关文法被用于定义可由一个语法分析程序识别的程序结构.语法分析器用下推自 动机实现(PDA)
YACC和BASION是生成语法分析程序的工具:识别程序的文法结构的结构程序.BISON是一个更快的YACC版本.在这一章,YACC/BISOM指指生成工具的任何一个(就是把其看成同一工具).有关YACC/Bsion的小节是汇聚和扩展了出自Charles Donnelly和Richard Stallman的"BISON the Yacc-compatible Parser Generator"文档.(书名和作者名不翻译便于读者查找相关信息)
语义分析阶段是从语法树中分析得到称作静态语义的"上下文敏感"信息.语义分析阶段 输出一个带注释的语法树.属性文法被用于描述一个程序的静态语义.
这个阶段经常已语法分析合在一起.当语法分析时,关于变量和其它对象的信息被保存在 一张符号表中.信息在执行上下文敏感检测时利用.
优化适用于保留语义的注释语法树变换,简化语法树结构和易于生成更有效的代码.
代码生成通过使用源语言指示语义规则把简化的注释语法树转化成目标代码.
窥孔优化通过每次一些指令来检查目标代码,目的在于让机器相关的代码得到改善.
与编译程序相关,解释程序是一个模拟由源语言书写的程序执行的程序.解释程序可以用于源语言级别,也可以用于解释一个理想化机器的目标代码.在这种情况下,生成的理想化机器代码结构与源代码十分相似.
还有其它几种翻译器类型经常被用于与一个编译器相关联来执行程序.一个汇编译器是一个与机器语言一一对应的汇编语言翻译程序.一些编译器生成生成汇编代码经常通过一个汇编器汇编成机器代码.一个装载器是一个一个源语言和目标语言都是机器语言的翻译程序.源语言程序包含由程序中指出的特定数据列表,当程序被执行时这些表必须被修改.一个链接编译程序收集可执行程序并为真正执行而把他们链接在一起.一个预处理器是一个源语言是一扩展形式的高级语言而目标语言是一个标准形式的高级语言的翻译器.
为了说明,我们将构造一个为一只有简单命令的程序语言编译器,称Simple.Simple的上下文无关文法由图1.1给出:
program ::= LET [declarations ] IN command_sequence END
declarations ::= INTEGER [id_seq] IDENTIFIER
id_seq ::=id_seq...IDENTIFIER
command_sequence::=command...command
command ::=SKIP;
| IDENTIFIER := expression;
| IF exp THEN command_sequence ELSE command_sequence FI;
| WHILE exp DO command_sequence END;
| READ IDENTIFIER
| WRITE expression;
expression::= NUMBER | IDEBTIFIER | '('expression')'
| expression + expression | expression - expression
| expression * expression | expression / expression
| expression ^ expression
| expression = expression
| expression < expression
| expression > expression
Figure 1.1 Simple
这里非终结符用小写表示,终结符用大写或字符常量表示,如果字符常量与EBNF的元符号有冲突那么则会附上单引号.开始符号为program.稍后上面文法用大写字母去代表的终结符,将会被用小写字母实现.
这里有两个上下文敏感要求:变量必须先声明后使用.一个变量只能声明一次