antlr4略解

enbug

已于 2024-05-06 03:25:39 修改

阅读量568

点赞数 20

分类专栏：朝花夕拾文章标签： nlp

于 2024-05-06 03:22:33 首次发布

本文链接：https://blog.csdn.net/wx_assa/article/details/138477797

版权

朝花夕拾专栏收录该内容

2 篇文章 0 订阅

订阅专栏

本文介绍了ANTLR4的作用，包括生成语言的词法分析器(lexer)和语法分析器(parser)，详细解释了它们的功能以及使用ANTLR4创建这些组件的具体步骤，同时提到了对于常见语言已有现成解析器的情况。

摘要由CSDN通过智能技术生成

文章目录

1. antlr4是用来干什么的？

是用来生成某语言lexer和parser的。
通俗点说，就是输入一个语言的规则描述文件，输出这个语言的lexer和parser。

2. 什么是lexer和parser？

编译可以分成词法分析，语法分析，语义分析等若干步骤，
以如下c++代码为例

int b;
int a=b+1;

词法分析是把源代码分成一个token序列，lexer就是负责词法分析的程序，lexer中文叫分词器或词法分析器，上述代码可能会被lexer分成如下token序列

int 'int' 
identifier 'b'
semi ';'
int 'int'
identifier 'a'
equal '='
identifier 'b' 
plus '+' 
numeric_constant '1'
semi ';'
eof ''

语法分析是把经词法分析得到的token序列，转换成一颗抽象语法树，parser就是负责语法分析的程序，parser的中文叫语法分析器或解析器，上述代码可能会被解析成如下抽象语法树

|-VarDecl 0x1cf11c82838  used b 'int'
`-VarDecl 0x1cf11c82918 a 'int' cinit
  `-BinaryOperator 0x1cf11c829e0  'int' '+'
    |-ImplicitCastExpr 0x1cf11c829c8  'int' <LValueToRValue>
    | `-DeclRefExpr 0x1cf11c82980  'int' lvalue Var 0x1cf11c82838 'b' 'int'
    `-IntegerLiteral 0x1cf11c829a0  'int' 1

3. 使用antlr4生成某语言的lexer和parser的具体过程

在下文中为了避免混淆，先澄清一些名词的含义。例如，我们使用ANTLR4工具生成了用于解析XML语言lexer和parser，而生成的lexer和parser的源代码是Python的。在这个例子中，XML语言是要解析的语言，而Python是最终生成的代码的目标语言。

下文使用术语“被解析语言”来指代需要解析的语言，它既可以是编程语言，也可以是其他类型的语言。而“目标语言”则严格指代生成的代码所采用的编程语言。ANTLR4工具支持通过编写语言规则文件来支持各种自定义的“被解析语言”。目前，ANTLR4支持十几种常见的目标语言，如C++、Java、Python等。

具体生成lexer/parser的过程如下：

安装antlr4，参考https://github.com/antlr/antlr4/blob/master/doc/getting-started.md
编写被解析语言的规则文件，规则文件的具体写法可参考https://github.com/antlr/antlr4/blob/master/doc/grammars.md，antlr4项目本身已经包含了大量写好的常见语言的规则文件，在仓库https://github.com/antlr/grammars-v4里，这样大部分常见语言都不用自己写规则文件了。
根据规则文件生成对应的lexer/parser和对应lexer/paser依赖的运行时库，参考https://github.com/antlr/antlr4/blob/master/doc/getting-started.md，其中需要注意的是选择是否生成ast对应的visitor或listener，visitor和listener都是用来遍历抽象语法树的。