HiveSQL和SparkSQL的区别和联系

万里长江横渡

已于 2022-12-10 17:14:26 修改

阅读量1.1w

点赞数 16

分类专栏：大数据文章标签： hive hadoop 大数据

于 2022-06-25 13:23:49 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44870066/article/details/125457965

版权

大数据专栏收录该内容

38 篇文章 3 订阅

订阅专栏

一、SparkSQL和Hive对比

在这里插入图片描述

二、HiveSQL和SparkSQL的对比

sql生成mapreduce程序必要的过程：解析（Parser）、优化（Optimizer）、执行（Execution）
在这里插入图片描述

三、spark、hive on spark、spark on hive三者的比较

Hive引擎包括：默认MR、tez、spark

Hive on Spark：Hive既作为存储元数据又负责SQL的解析优化，语法是HQL语法，执行引擎变成了Spark，Spark负责采用RDD执行。

Spark on Hive : Hive只作为存储元数据，Spark负责SQL解析优化，语法是Spark SQL语法，Spark负责采用RDD执行。

【spark on hive 】

hive只作为存储角色，spark 负责sql解析优化，底层运行的还是sparkRDD

具体可以理解为spark通过sparkSQL使用hive语句操作hive表，底层运行的还是sparkRDD，

步骤如下：

1.通过sparkSQL，加载Hive的配置文件，获取Hive的元数据信息

2.获取到Hive的元数据信息之后可以拿到Hive表的数据

3.通过sparkSQL来操作Hive表中的数据

【hive on spark】

hive既作为存储又负责sql的解析优化，spark负责执行

这里Hive的执行引擎变成了spark，不再是MR。

这个实现较为麻烦，必须重新编译spark并导入相关jar包

目前大部分使用spark on hive

万里长江横渡

关注

16
点赞
踩
88

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

万里长江横渡 CSDN认证博客专家 CSDN认证企业博客

码龄6年

124: 原创

3万+: 周排名

22万+: 总排名

24万+: 访问

: 等级

1481: 积分

1159: 粉丝

180: 获赞

16: 评论

875: 收藏

私信

关注

热门文章

分类专栏

hive 9篇
大数据 38篇
kafka 3篇
Spark 7篇
flink 2篇
java 2篇
用户画像 2篇
数据同步 1篇
学习
yml配置
Spring 2篇
ajax
SpringMVC 1篇

最新评论

Spark job failed during runtime. Please check stacktrace for the root cause.
m(wlx): 你好，这个问题解决了吗
Hadoop关闭安全模式
2201_75928161: 求求解答，关闭了安全模式再创建input 还是说处于安全模式，怎么办
hive窗口函数(开窗函数)
daleHaven: 这篇文章关于窗口函数表达式介绍的很好，希望大家结合实际去练习一下，效果会更好，已经学会了，感谢博主。
数据同步工具DataX、Sqoop、Maxwell、Canal
代立冬: 欢迎博主也关注一下咱们新一代分布式超高性能云原生数据同步开源数据集成工具 - Apache SeaTunnel 已经在B站、腾讯云、字节等数百家公司使用。SeaTunnel 支持离线和实时同步，断点续传，CDC 等诸多特性，欢迎对比
Hadoop 优化
running_bug: 为什么这样优化啊？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。