hive基础简介

最新推荐文章于 2024-06-09 17:48:44 发布

嚄825

最新推荐文章于 2024-06-09 17:48:44 发布

阅读量429

点赞数 1

文章标签： hive hadoop 大数据

本文链接：https://blog.csdn.net/weixin_56572337/article/details/130695172

版权

一。什么是hive

1.hive简介

hive是由facebook开源，基于hadoop的一个数据仓库工具，可以将结构化的数据映射为一张表，并提供类sql查询功能

2.hive本质

hive是一个hadoop的客户端，用于将HQL（hive sql）转化为mapreduce程序。

hive中每一张表对应的就是Hadoop中的一个文件

hive每张表的数据存储在hdfs
hive分析数据底层的实现是mapreduce（每个hive的HQL语句其实就是转化为了一个mapreduce程序，现在hive也支持spark，tez等的转化）
执行程序运行在yarn上

所以hive的本质就是Hadoop的一个客户端。

二。为什么要使用hive

直接使用 MapReduce 所面临的问题：人员学习成本太高项目周期要求太短 MapReduce 实现复杂查询逻辑开发难度太大

更友好的接口：操作接口采用类 SQL 的语法，提供快速开发的能力更低的学习成本：避免了写MapReduce，减少开发人员的学习成本更好的扩展性：可自由扩展集群规模而无需重启服务，还支持用户自定义函数

三。hive的特定

优点：

1、可扩展性,横向扩展，Hive 可以自由的扩展集群的规模，一般情况下不需要重启服务横向扩展纵向扩展

2、延展性，Hive支持自定义函数，用户可以根据自己的需求来实现自己的函数

3、良好的容错性，可以保障即使有节点出现问题，SQL 语句仍可完成执行缺点：

1、Hive 不支持记录级别的增删改操作，但是用户可以通过查询生成新表或者将查询结果导入到文件中

2、Hive 的查询延时严重，因为MapReduce的启动过程消耗很长时间，所以不能用在交互查询系统中。

3、Hive 不支持事务（因为不没有增删改，所以主要用来OLAP（联机分析处理），而不是 OLTP

四。hive核心架构

在这里插入图片描述

（1）用户接口：Client
CLI（command-line interface）、JDBC/ODBC(jdbc 访问 hive)、WEBUI（浏览器访问hive）
Metastore：它是一个提供元数据访问接口的。并不存储元数据

（2）元数据

就是在hive中创建的数据库，表和表中的一些字段的信息，包括它们在hdfs存储的位置，字段类型等等

元素据存储在关系型数据库中，比如mysql。

HiveServer2：

提供jdbc或者odbs的访问接口，或者用户认证

（3）hive client：

CLI命令行客户端，它只能在安装了hive的本地使用，如果想要远程使用当前hive，那么就需要使用一些使用了jdbc或者odbs的客户端，它们连接hiveserver2，然后在其他的客户端连接当前的hiveserver2去使用当前hive。

（4）driver：

当用户使用了hive命令时候，首先metasore，会将相关的元数据信息存储到MySQL，然后driver会将这条命令转化为mapreduce执行程序（当然也可以转化为spark程序），同时driver也会与MySQL相连接，获取到执行程序所需的hdfs文件位置什么的，driver是在CLI或者hiveserver2上面执行的。最后这个执行程序会由driver提交到yarn上面去执行。

五。驱动器：Driver

解析器（SQL Parser）：将SQL 字符串转换成抽象语法树 AST，这一步一般都用第三方工具库完成，比如 antlr；对AST 进行语法分析，比如表是否存在、字段是否存在、SQL语义是否有误。

编译器（Physical Plan）：将AST 编译生成逻辑执行计划。

优化器（Query Optimizer）：对逻辑执行计划进行优化。

执行器（Execution）：把逻辑执行计划转换成可以运行的物理计划。对于Hive 来说，就是MR/Spark。

在这里插入图片描述

Hive 通过给用户提供的一系列交互接口，接收到用户的指令(SQL)，使用自己的 Driver，结合元数据(MetaStore)，将这些指令翻译成 MapReduce，提交到Hadoop 中执行，最后，将执行返回的结果输出到用户交互接口。

六。Hive 和数据库比较

由于 Hive 采用了类似 SQL 的查询语言 HQL(Hive Query Language)，因此很容易将 Hive 理解为数据库。其实从结构上来看，Hive 和数据库除了拥有类似的查询语言，再无类似之处。数据库可以用在Online 的应用中，但是Hive 是为数据仓库而设计的。

（1） 查询语言
由于 SQL 被广泛的应用在数据仓库中，因此，专门针对 Hive 的特性设计了类 SQL 的查询语言HQL。熟悉 SQL 开发的开发者可以很方便的使用Hive 进行开发。

（2）数据更新
由于Hive 是针对数据仓库应用设计的，而数据仓库的内容是读多写少的。因此，Hive 中不建议对数据的改写，所有的数据都是在加载的时候确定好的。而数据库中的数据通常是需要经常进行修改的，因此可以使用 INSERT INTO … VALUES 添加数据，使用 UPDATE … SET 修改数据。

（3）执行延迟
Hive 在查询数据的时候，由于没有索引，需要扫描整个表，因此延迟较高。另外一个导致 Hive 执行延迟高的因素是 MapReduce 框架。由于MapReduce 本身具有较高的延迟，因此在利用MapReduce 执行Hive 查询时，也会有较高的延迟。相对的，数据库的执行延迟较低。当然，这个低是有条件的，即数据规模较小，当数据规模大到超过数据库的处理能力的时候，Hive 的并行计算显然能体现出优势。

（4）数据规模
由于Hive 建立在集群上并可以利用 MapReduce 进行并行计算，因此可以支持很大规模的数据；对应的，数据库可以支持的数据规模较小。