大数据 - hive执行SQL语句基本流程- 源码02

最新推荐文章于 2023-04-02 22:56:42 发布

置顶搅碎一池星月

最新推荐文章于 2023-04-02 22:56:42 发布

阅读量516

点赞数 2

本文链接：https://blog.csdn.net/weixin_45518155/article/details/107449410

版权

大数据 - hive 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

目录导航

Driver类
- - 编译的过程
  - - 代码入口以及过程
    - - 利用antlr将HiveQL转换成抽象语法树（AST）。
      - 利用对应的SemanticAnalyzer类，将AST树转换成Map-reduce task。

Driver类

Driver类是hive最核心的类。Driver类是查询的起点，run()方法会先后调用compile()和execute()两个函数来完成查询，所以一个command的查询分为compile和execute两个阶段。

编译的过程

Compiler简介

解析器(Parser)–将查询字符串转换为解析树表示形式。
语义分析器(Semantic Analyser)-将解析树转换为内部查询表示形式，该表示形式基于块。
逻辑计划生成器(Logical Plan Generator)将内部查询表示形式转换为逻辑计划，该逻辑计划由运算符树组成。但是reduceSink等运算符是Hive专用的，将该计划转换为一系列map-reduce作业。
查询计划生成器(Query Plan Generator)将逻辑计划转换为一系列的map-reduce任务。查询计划计划被序列化并写入文件。

代码入口以及过程

Driver.run()方法调用Driver.runInternal()方法，首先该方法中会判断SQL是否经过编译，若未进行编译，则会调用compileInternal之后调用compile方法进行编译。

利用antlr将HiveQL转换成抽象语法树（AST）。

首先使用antlr工具将srcqlsrcjavaorgapachehadoophiveqlparsehive.g编译成以下几个文件：HiveParser.java, Hive.tokens, Hive__.g, HiveLexer.java。
HiveLexer.java和HiveParser.java分别是词法和语法分析类文件，Hive__.g是HiveLexer.java对应的词法分析规范，Hive.tokens定义了词法分析后所有的token。
然后沿着“Driver.compile()->ParseDriver.parse(command, ctx)->HiveParserX.statement()->antlr中的API”这个调用关系把输入的HiveQL转化成ASTNode类型的语法树。HiveParserX是由antlr生成的HiveParser类的子类。

      //将SQL语句转化为AST树
      ParseDriver pd = new ParseDriver();
      ASTNode tree = pd.parse(command, ctx);
      tree = ParseUtils.findRootNonNullToken(tree);
      perfLogger.PerfLogEnd(CLASS_NAME, PerfLogger.PARSE);

利用对应的SemanticAnalyzer类，将AST树转换成Map-reduce task。

这部分会用到BaseSemanticAnalyzer.analyze，大致流程是先通过anticAnalyzerFactory.get(queryState, tree)，初始化BaseSemanticAnalyzer对象，并且确定了该SQL的类型。SQL的类型以及使用了哪些算子都在org/apache/hadoop/hive/ql/parse/HiveParser.g语法文件中枚举出来了。
然后会通过sem.analyze(tree, ctx)调用analyzeInternal

  public void analyze(ASTNode ast, Context ctx) throws SemanticException {
    initCtx(ctx);
    init(true);
    analyzeInternal(ast);
  }

以查询语句为例。进入进入的子类是SemanticAnalyzer. analyzeInternal()
整体逻辑为：

doPhase1()：将sql语句中涉及到的各种信息存储起来，存到QB中去，留着后面用。

if (!doPhase1(child, qb, ctx_1, plannerCtx)) {
      // if phase1Result false return
      return false;
    }

getMetaData()：获取元数据信息，主要是sql中涉及到的表和元数据的关联

 public void getMetaData(QB qb, boolean enableMaterialization) throws SemanticException {
    try {
      if (enableMaterialization) {
        getMaterializationMetadata(qb);
      }
      getMetaData(qb, null);
    } catch (HiveException e) {
      // Has to use full name to make sure it does not conflict with
      // org.apache.commons.lang.StringUtils
      LOG.error(org.apache.hadoop.util.StringUtils.stringifyException(e));
      if (e instanceof SemanticException) {
        throw (SemanticException)e;
      }
      throw new SemanticException(e.getMessage(), e);
    }
  }

genPlan()：生成operator tree/DAG

Operator sinkOp = genOPTree(ast, plannerCtx);


Operator genOPTree(ASTNode ast, PlannerContext plannerCtx) throws SemanticException {
    return genPlan(qb);
  }


  private Operator genPlan(QB parent, QBExpr qbexpr) throws SemanticException {
    if (qbexpr.getOpcode() == QBExpr.Opcode.NULLOP) {
      boolean skipAmbiguityCheck = viewSelect == null && parent.isTopLevelSelectStarQuery();
      return genPlan(qbexpr.getQB(), skipAmbiguityCheck);
    }
    if (qbexpr.getOpcode() == QBExpr.Opcode.UNION) {
      Operator qbexpr1Ops = genPlan(parent, qbexpr.getQBExpr1());
      Operator qbexpr2Ops = genPlan(parent, qbexpr.getQBExpr2());

      return genUnionPlan(qbexpr.getAlias(), qbexpr.getQBExpr1().getAlias(),
          qbexpr1Ops, qbexpr.getQBExpr2().getAlias(), qbexpr2Ops);
    }
    return null;
  }

optimize()：优化，对operator tree/DAG 进行一些优化操作，例如列剪枝等（目前只能做rule-based optimize，不能做cost-based optimize）

  //逻辑优化
    pCtx = optm.optimize();//fetchTask在逻辑执行计划最后一步生成

getFetchTask()开始生成物理执行计划

    //fetchTask是物理执行计划的开始
    FetchTask origFetchTask = pCtx.getFetchTask();

    //不同引擎生成不同物理计划
    compiler.compile(pCtx, rootTasks, inputs, outputs);


    //生成物理执行计划
    generateTaskTree(rootTasks, pCtx, mvTask, inputs, outputs);


    //物理优化
    optimizeTaskPlan(rootTasks, pCtx, ctx);

整体的编译流程大概如此，下篇谈一下执行的过程。
本文采用hive2.1.1源码为参考。

搅碎一池星月

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
大数据 - hive执行SQL语句基本流程- 源码02

目录导航Driver类编译的过程代码入口以及过程利用antlr将HiveQL转换成抽象语法树（AST）。利用对应的SemanticAnalyzer类，将AST树转换成Map-reduce task。Driver类Driver类是hive最核心的类。Driver类是查询的起点，run()方法会先后调用compile()和execute()两个函数来完成查询，所以一个command的查询分为compile和execute两个阶段。编译的过程Compiler简介解析器(Parser)–将查询字符串转
复制链接

扫一扫

专栏目录