Apache Hive 概述

最新推荐文章于 2023-01-08 16:07:14 发布

跑调却靠谱

最新推荐文章于 2023-01-08 16:07:14 发布

阅读量1.9k

点赞数 11

分类专栏： Hive 文章标签： hive hadoop apache

本文链接：https://blog.csdn.net/weixin_53570636/article/details/126856108

版权

7 篇文章 0 订阅

订阅专栏

Apache Hive是一款建立在Hadoop之上的开源数据仓库系统，可以将存储在Hadoop文件中的结构化、半结构化数据文件映射为一张数据库表，基于表提供了一种类似SQL的查询模型，称为Hive查询语言（HQL），用于访问和分析存储在Hadoop文件中的大型数据集。
Hive核心是将HQL转换为MapReduce程序，然后将程序提交到Hadoop群集执行
Hive由Facebook实现并开源。

Hadoop MapReduce直接处理数据所面临的问题：人员学习成本高，MapReduce实现复杂查询逻辑开发难度太大。
使用Hive处理数据的好处：操作接口采用类SQL语法，提供快速开发的能力（简单、容易上手），避免直接写MapReduce，减少开发人员的学习成本，支持自定义函数，功能扩展很反方便，背靠Hadoop，擅长存储分析海量数据集。

从功能来说，数据仓库软至少需要具备两种能力：存储数据的能力，分析数据的能力
Apache Hive作为一款大数据时代的数据仓库软件，并不是自己实现了上述两种能力，而是借助Hadoop，Hive利用HDFS存储数据，利用MapReduce查询分析数据。
Hive最大的魅力在于用户专注于写HQL，Hive帮助转换为MapReduce程序完成对数据的分析。

Hive能将数据文件映射成为一张表，这个映射是指什么？
答：文件和表之间的对应关系
Hive软件本身到底承担了什么功能职责？
答：SQL语法解析编译成为MapReduce
什么是元数据Metadata？
答：Hive Metadata即Hive的元数据，包含用Hive创建的database、table、表的位置、类型、属性、字段顺序类型等元信息。元数据存储在关系型数据库中，如hive内置的Derby、第三方如MySQL等。
什么是元数据服务Metastore？
答：Metastore服务的作用是管理metadata元数据，对外暴露服务地址，让各种客户端通过连接metastore服务，由datastore再去连接MySQL数据库来存取元数据。通过metastore服务，就可以有多个客户端同时连接，而且这些客户端不需要知道MySQL数据库的用户名和密码，只需要连接metastore服务即可，某种程度上也保证了hive元数据的安全。

映射在数学上称之为一种对应关系，比如y=x+1，对于每一个X的值都有与之对应的Y值
在hive中能够写SQL处理的前提是针对表，而不是针对文件，因此需要将文件和表之间的对应关系描述记录清楚。映射信息专业的叫法称之为：元数据信息（描述数据的数据：metadata）。
用户写完SQL之后，hive需要针对sql进行语法校验，并根据记录的元数据信息解读SQL背后的含义，制定执行计划，并且把执行计划转换成MapReudce程序来执行，把执行的结果封装返回给用户。

在这里插入图片描述

包括CLI、JDBC/ODBC、webGUI。其中，CLI（command line interface）为shell命令行，Hive中的Thrift服务器允许外部客户端通过网络与Hive交互，类似于JDBC或ODBC协议，WebUI是通过浏览器访问Hive。

通常是存储在关系数据库中，Hive中的元数据包括表的名字，表的列和分区及其属性，表的属性（是否为外部表等），表的数据所在的目录等。

包括语法解析器、计划编译器、优化器、执行器。完成HQL查询语句从词法分析、语法分析、编译、优化及查询计划的生成。生成的查询计划存储在HDFS中，并在随后又执行引擎调用执行。

Hive本身并不直接处理数据文件，而是通过执行引擎处理。当下Hive支持MapReduce、Tez、Spark三种执行引擎。

Hive作为一个数据仓库，在结构上积极向传统数据库看齐，也分数据库（Schema），每个数据库下面有各自的表组成。默认数据库default。
Hive的数据都是存在HDFS上的，默认有一个根目录，在hive-site.xml中，由参数hive.metastore.warehouse.dir指定。默认值为/user/hive/warehouse。
因此Hive中的数据库在HDFS上的存储路径为：${hive.metastore.warehouse.dir}/databasename.db
比如名为itcast的数据库存储路径为：/user/hive/warehouse/itcast.db

Hive表与关系数据库中的表相同。Hive中的表所对应的数据通常是存储在HDFS中，而表相关的元数据是存储在RDBM中。
Hive中的表的数据在HDFS上的存储路径为： ${hive.metastore.warehouse.dir}/databasename.db/tablename
比如，itcast的数据库下t_user表存储路径为：/user/hive/warehouse/itcast.db/t_user

关注