Hive代码分析报告（六）：语义分析①

最新推荐文章于 2023-01-15 16:40:47 发布

SameulYolanda

最新推荐文章于 2023-01-15 16:40:47 发布

阅读量1.1k

点赞数

分类专栏：软件工程应用与实践文章标签： hive hadoop 数据仓库

本文链接：https://blog.csdn.net/weixin_45846560/article/details/121124577

版权

软件工程应用与实践专栏收录该内容

13 篇文章 5 订阅

订阅专栏

2021SC@SDUSC

概述

代码分析

小结

概述

经过前面的分析，我们知道，Hive处理一条HQL语句，分前端和编译器部分，前端（Cli）主要负责接受用户在命令行上输入的信息，然后准备执行并将执行的结果返回。而后面的工作由Compiler完成。

编译流程的第一步主要由HiveParser部分完成，该类是编译的入口，入参是一条字符串的sql，输出是一棵抽象语法树，ASTNode 是树的头结点，前面的分析知道，其拥有树相关操作、获取孩子节点等方法。

之后编译阶段的任务是语义分析，语义分析首先将抽象语法树，解析为一个QB(query block),这个过程主要由SemanticAnalyzer.java （语义分析器）完成

SemanticAnalyzer.java代码量超10000行，可见其内容的丰富性。根据粗略的浏览，发现与之有密切关系的类还有SemanticAnalyzerFactory.java，BaseSemanticAnalyzer.java等十几个类。

代码分析

根据前面生成AST后的调用顺序，之后AST树会作为参数，被SemanticAnalyzerFactory.get()方法调用，下面我们来分析一下这个函数

public static BaseSemanticAnalyzer get(QueryState queryState, ASTNode tree) throws SemanticException {

    BaseSemanticAnalyzer sem = getInternal(queryState, tree);

    if(queryState.getHiveOperation() == null) {

      String query = queryState.getQueryString();

      if(query != null && query.length() > 30) {

        query = query.substring(0, 30);

      }

      String msg = "Unknown HiveOperation for query='" + query + "' queryId=" + queryState.getQueryId();

      //throw new IllegalStateException(msg);

      LOG.debug(msg);

    }

    return sem;

  }

首先，我们注意到，这个函数的返回类型是一个BaseSemanticAnalyzer类对象sem，然后是对query语句的一些字符串处理。

其中这个过程的关键是调用getInternal函数，直接来看这个函数

private static BaseSemanticAnalyzer getInternal(QueryState queryState, ASTNode tree)

      throws SemanticException {

    if (tree.getToken() == null) {

      throw new RuntimeException("Empty Syntax Tree");

    } else {

      HiveOperation opType = commandType.get(tree.getType());

      queryState.setCommandType(opType);

      switch (tree.getType()) {

      case HiveParser.TOK_EXPLAIN:

        return new ExplainSemanticAnalyzer(queryState);

      case HiveParser.TOK_EXPLAIN_SQ_REWRITE:

        return new ExplainSQRewriteSemanticAnalyzer(queryState);

      case HiveParser.TOK_LOAD:

        return new LoadSemanticAnalyzer(queryState);

      case HiveParser.TOK_EXPORT:

        if (UpdateDeleteSemanticAnalyzer.isAcidExport(tree)) {

          return new UpdateDeleteSemanticAnalyzer(queryState);

        }

        return new ExportSemanticAnalyzer(queryState);

      case HiveParser.TOK_IMPORT:

        return new ImportSemanticAnalyzer(queryState);

      case HiveParser.TOK_REPL_DUMP:

        return new ReplicationSemanticAnalyzer(queryState);

      …………………………………………………………略

这个函数的主体部分很明确，主要通过连续的多个switch case条件选择语句来确定返回SemanticAnalyzer语法分析器的类型。

综合来看，经过分析，这两个函数的主要作用是

I.设置本次会话SessionState对象的CommandType，这些类型定义为常量HiveOperation.XXX；

II.创建并返回一个合适的语法分析器（都继承自BasicSemanticAnalyzer），经过对照和分析，主要的对应关系如下表所示

类型	对应语义分析器
TOK_EXPLAIN	ExplainSemanticAnalyzer
TOK_LOAD	LoadSemanticAnalyzer
TOK_CREATEDATABASE/DROPDATABASE/ SWITCHDATABASE/DROPTABLE/ DROPVIEW/DESCDATABASE/ DESCTABLE/DESCFUNCTION/ MSCK/ALTERXXX_XXX/ SHOWXXX/CREATEINDEX/ DROPINDEX/LOCKTABLE/ UNLOCKTABLE/CREATEROLE/ DROPROLE/ GRANT/REVOKE/ GRANT_ROLE/ REVOKE_ROLE	SemanticAnalyzer
TOK_CREATEFUNCTION/DROPFUNCTION	FunctionSemanticAnalyzer
其它	SemanticAnalyzer

再回过头来看BaseSemanticAnalyzer sem = getInternal(queryState, tree);这句

因为getInternal（）函数中，它的返回对象实际上并不只是BaseSemanticAnalyzer这么简单，根据读入AST的不同会有多种类型，再结合BaseSemanticAnalyzer sem，再结合该类的命名，可以推测，上表中的各种类型，都是由BaseSemanticAnalyzer派生而来。再查阅这些类的内容，发现，推测完全正确。

BaseSemanticAnalyzer 开头部分代码：

public abstract class BaseSemanticAnalyzer {

  protected static final Logger STATIC_LOG = LoggerFactory.getLogger(BaseSemanticAnalyzer.class.getName());

  // Assumes one instance of this + single-threaded compilation for each query.

  protected final Hive db;

  protected final HiveConf conf;

  protected final QueryState queryState;

  protected List<Task<?>> rootTasks;

  protected FetchTask fetchTask;

…………………………………………

…………………………………………

关于这个BaseSemanticAnalyzer类，我将在之后进行探讨。不过可以暂时知道该类是语义分析器的抽象基类，不可以被实例化。