Apache Hive概述
Apache Hive是一款分布式SQL计算的工具,主要功能:
将SQL语句翻译成MapReduce程序运行。
- 传统MapReduce开发:写MR代码-->得到结果;
- 使用Hive开发:写SQL-->得到结果;
- 底层都是MR在运行,但是使用层上更加简单了。
Hive基础架构
Driver驱动程序
Driver:包括语法解释器、计划编译器、优化器、执行器。
- 作用:完成HQL查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。(生成的查询计划存储在HDFS中,并在随后有MapReduce调用执行。
Metastore元数据存储
元数据包含:用Hive创建的database、table、表的字段等元信息。
元数据的存储:存在关系型数据库中(如:Hive内置的Derby数据库或者第三方MySQL数据库等。)
- Metastore作用:客户端连接metastore服务、metastore再去连接MySQL等数据库来存储元数据。
- Metastore服务配置有3种模式:内嵌模式、本地模式、远程模式。