大数据框架之Hive：第1章 Hive入门

最新推荐文章于 2024-10-02 00:05:33 发布

yiluohan0307

最新推荐文章于 2024-10-02 00:05:33 发布

阅读量1.1k

点赞数

分类专栏：大数据框架之Hive 文章标签： hive 大数据 hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yiluohan0307/article/details/129350705

版权

大数据框架之Hive 专栏收录该内容

13 篇文章 1 订阅

订阅专栏

Hive是一个由Facebook开源的数据仓库工具，它允许使用类SQL查询语言处理存储在HDFS中的结构化数据。Hive通过将SQL查询转化为MapReduce任务进行运算，简化了大数据分析的过程。元数据存储在Metastore中，生产环境通常使用MySQL。Hive提供了CLI、JDBC/ODBC接口，且其执行流程包括解析、分析、计划生成与优化、执行等多个阶段。

摘要由CSDN通过智能技术生成

1.1 什么是Hive

1）Hive简介

Hive是由Facebook开源，基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。

那为什么会有Hive呢？它是为了解决什么问题而诞生的呢？

下面通过一个案例，来快速了解一下Hive。

例如：需求，统计单词出现个数。

（1）在Hadoop课程中我们用MapReduce程序实现的，当时需要写Mapper、Reducer和Driver三个类，并实现对应逻辑，相对繁琐。

test表
id列

atguigu
atguigu
ss
ss
jiao
banzhang
xue
hadoop

（2）如果通过Hive SQL实现，一行就搞定了，简单方便，容易理解。

select count(*) from test group by id;

2）Hive本质

Hive是一个Hadoop客户端，用于将HQL（Hive SQL）转化成MapReduce程序。

（1）Hive中每张表的数据存储在HDFS

（2）Hive分析数据底层的实现是MapReduce（也可配置为Spark或者Tez）

（3）执行程序运行在Yarn上

1.2 Hive架构原理

Untitled

1）用户接口：Client

CLI（command-line interface）、JDBC/ODBC。

说明：JDBC和ODBC的区别。

（1）JDBC的移植性比ODBC好；（通常情况下，安装完ODBC驱动程序之后，还需要经过确定的配置才能够应用。而不相同的配置在不相同数据库服务器之间不能够通用。所以，安装一次就需要再配置一次。JDBC只需要选取适当的JDBC数据库驱动程序，就不需要额外的配置。在安装过程中，JDBC数据库驱动程序会自己完成有关的配置。）

（2）两者使用的语言不同，JDBC在Java编程时使用，ODBC一般在C/C++编程时使用。

2）元数据：Metastore

元数据包括：数据库（默认是default）、表名、表的拥有者、列/分区字段、表的类型（是否是外部表）、表的数据所在目录等。

默认存储在自带的derby数据库中，由于derby数据库只支持单客户端访问，生产环境中为了多人开发，推荐使用MySQL存储Metastore。

3）驱动器：Driver

（1）解析器（SQLParser）：将SQL字符串转换成抽象语法树（AST）

Untitled

（2）语义分析（Semantic Analyzer）：将AST进一步划分为QueryBlock

（3）逻辑计划生成器（Logical Plan Gen）：将语法树生成逻辑计划

（4）逻辑优化器（Logical Optimizer）：对逻辑计划进行优化

（5）物理计划生成器（Physical Plan Gen）：根据优化后的逻辑计划生成物理计划

（6）物理优化器（Physical Optimizer）：对物理计划进行优化

Untitled

（7）执行器（Execution）：执行该计划，得到查询结果并返回给客户端

4）Hadoop

使用HDFS进行存储，可以选择MapReduce/Tez/Spark进行计算。

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

yiluohan0307 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。