数仓--Hive--总结之Hive架构原理

最新推荐文章于 2024-07-28 14:07:27 发布

有这么个程序员

最新推荐文章于 2024-07-28 14:07:27 发布

阅读量604

点赞数

分类专栏： Hive 文章标签： hive sql hadoop mapreduce hdfs

本文链接：https://blog.csdn.net/weixin_45678465/article/details/105396536

版权

Hive是Facebook开源的基于Hadoop的数据仓库工具，提供类SQL查询功能。它将结构化的数据文件映射为表，并通过Driver将SQL转化为MapReduce任务在Hadoop上执行。Hive的优势在于简化开发，节省时间成本，且易于扩展，支持自定义函数。其执行流程包括用户提交查询、编译、优化、执行和结果返回。SQL到MapReduce的转化涉及多个步骤，最终形成执行计划。

摘要由CSDN通过智能技术生成

什么是Hive

Hive是由FaceBook开源用于解决海量日志文件的数据结构 ; Hive是基于Hadoop的一个数据仓库工具 , 可以将结构化的数据文件映射成一张表 , 并提供了类SQL的查询功能 , 底层计算的引擎默认是Hadoop的MapReduce(本质就是将sql转换为mapreduce程序),并且可以将引擎更换为Spark / Tez
推荐学习博客 : 关于hive的那些事

Hive架构

在这里插入图片描述
如图所示 : Hive给我们用户提供了一系列的交互接口 , 接受用户的sql指令 , 使用自己的Driver , 再去结合元数据(Meta Store) , 将这些操作指令转换为MapReduce , 提交到Hadoop中并执行 , 最后 , 将执行结果输出到用户的交互接口 .

用户接口 : CLi , JDBC/ODBC , WEBUI
元数据 : Metastore
Hadoop : HDFS存储 , MapReduce计算
驱动器 : Driver 4

Hive优点

操作类SQL语法 , 简单容易上手,提升快速开发能力
免去写MapReduce , 减少开发人员的开发时间成本
可以与Impala / Spark等共享元数据
易于扩展 , 支持自定义函数 , 自定义存储位置等

Hive的执行流程

最低0.47元/天解锁文章

有这么个程序员

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
数仓--Hive--总结之Hive架构原理

什么是HiveHive是由FaceBook开源用于解决海量日志文件的数据结构 ; Hive是基于Hadoop的一个数据仓库工具 , 可以将结构化的数据文件映射成一张表 , 并提供了类SQL的查询功能 , 底层计算的引擎默认是Hadoop的MapReduce(本质就是将sql转换为mapreduce程序),并且可以将引擎更换为Spark / Tez推荐学习博客 : 关于hive的那些事Hi...
复制链接

扫一扫

专栏目录