十四、Hive功能架构

最新推荐文章于 2024-07-27 10:10:09 发布

zipo

最新推荐文章于 2024-07-27 10:10:09 发布

阅读量535

点赞数

本文链接：https://blog.csdn.net/zipo/article/details/55001966

版权

大数据专栏收录该内容

23 篇文章

订阅专栏

一、Hive 能做什么，与 MapReduce 相比优势在哪里？
使用Hive是基于MapReduce的，在查询统计方面比MapReduce开发起来更简单。
1）Hive 是建立在Hadoop (HDFS/MR)上的用于管理和查询结果化/非结构化的数据仓库；
2）一种可以存储、查询和分析存储在Hadoop 中的大规模数据的机制；
3）Hive 定义了简单的类SQL 查询语言，称为HQL，它允许熟悉SQL 的用户查询数据；
4）允许用Java开发自定义的函数UDF来处理内置无法完成的复杂的分析工作；
5）Hive没有专门的数据格式（分隔符等可以自己灵活的设定）；

二、为什么说 Hive 是 Hadoop 数据仓库？

Hive是构建在Hadoop之上的数据仓库

1）使用HQL作为查询接口；
2）使用HDFS作为存储；
3）使用MapReduce作为计算；

4）执行程序在Yarn上

三、Hive 架构，分为三个部分来理解

第一部分用户接口Client端
包含CLI（hive shell）、JDBC/ODBC（java访问hive）、WEBUI（浏览器访问hive）
第二部分驱动器（Driver）、元数据（MetaStore）
驱动器（Driver）包含：解析器、编译器、优化器、执行器；
解析器（SQL Parser）：将SQL字符串转换成抽象语法树AST，这一步一般都用第三方工具库完成，比如antlr；对AST进行语法分析，比如表是否存在、字段是否存在、SQL语义是否有误(比如select中被判定为聚合的字段在group by中是否有出现)；
编译器（Physical Plan）：将AST编译生成逻辑执行计划；
优化器（Query Optimizer）：对逻辑执行计划进行优化；
执行器（Execution）：把逻辑执行计划转换成可以运行的物理计划。对于Hive来说，就是MR/TEZ/Spark；
元数据: MetaStore
元数据包括：表名、表所属的数据库（默认是default）、表的拥有者、列/分区字段、表的类型（是否是外部表）、表的数据所在目录等；
默认存储在自带的derby数据库中，推荐使用采用MySQL存储。Metastore；
第三部分 Hadoop
使用HDFS进行存储，使用MapReduce进行计算。