Spark SQL 与 Hive 的区别简介【学习笔记】

最新推荐文章于 2024-03-30 20:29:48 发布

Diego_zh

最新推荐文章于 2024-03-30 20:29:48 发布

阅读量1.7w

点赞数 5

分类专栏：学习笔记文章标签： Spark Hive

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44196083/article/details/92404776

版权

学习笔记专栏收录该内容

4 篇文章 0 订阅

订阅专栏

一、什么是 Spark SQL？（官方定义）

Spark SQL

* A Spark module for structured data processing(known set of fields for each record - schema) ;

1. Spark SQL是Spark中专门用来处理结构化数据（每一行数据都遵循Schema信息 —— 建表时表的字段及其类型）的一个模块；

* Provides DataFrames/Dataset as an abstraction for distributed data processing ;

2. 提供了 DataFrame/Dataset 的对分布式数据处理的基本抽象；

* Acts as a distributed SQL engine ;

3. 其实之上是一个分布式的 SQL 引擎。

二、什么是 Hive？（官方定义）

Hive

* The Apache Hive ™ data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage using SQL.

1. 数据仓库，能使用 SQL 读取、写入和管理存在于分布式存储架构上的大数据集；

* Structure can be projected onto data already in storage.

2. 结构可以映射到已经存储的数据上；

* A command line tool and JDBC driver are provided to connect users to Hive.

3. 用户连接 Hive 可以使用命令行工具和 JDBC 驱动。

三、两者的区别

都支持ThriftServer服务，为JDBC提供解决方案，区别如下：

Spark SQL

=> 是Spark的一个库文件；

=> Spark SQL 元数据可有可无；

=> Spark SQL 中 schema 是自动推断的；

=> 支持标准 SQL 语句，也支持 HQL 语句等（可以用普通话、方言来对比理解）；

=> 从开发角度来讲，即支持SQL方式开发，也支持HQL开发，还支持函数式编程（DSL）实现SQL语句。

Hive

=> 是一个框架；

=> Hive中必须有元数据，一般由 MySql 管理，必须开启 metastore 服务；

=> Hive 中在建表时必须明确使用 DDL 声明 schema；

=> 只支持 HQL 语句。

Hive：处理海量数据，比如一个月、一个季度、一年的数据量，依然可以处理，虽然很慢；

Spark SQL：这种情况下 Spark SQL 不支持，无法处理；

所以在企业中，Hive 和 Spark SQL 能够共存，互为弥补。

关注

5
点赞
踩
33

收藏

觉得还不错? 一键收藏
3
评论
Spark SQL 与 Hive 的区别简介【学习笔记】

一、什么是Spark SQL？（官方定义）Spark SQL* A Spark module for structured data processing(known set of fields for each record - schema) ;1. Spark SQL是Spark中专门用来处理结构化数据（每一行数据都遵循Schema信息 —— 建表时表的字段及其 ...
复制链接

扫一扫

专栏目录

Diego_zh CSDN认证博客专家 CSDN认证企业博客

码龄5年

6: 原创

81万+: 周排名

111万+: 总排名

2万+: 访问

: 等级

259: 积分

2: 粉丝

13: 获赞

5: 评论

74: 收藏

私信

关注

热门文章

分类专栏

MySQL 1篇
kafka 1篇
Flume 1篇
学习笔记 4篇

最新评论

数据采集模块——Flume消费Kafka数据写入到HDFS
天地风雷水火山泽: 按照博客的启动命名执行后，这个flume停不下来，会自行启动？一旦ctrl+C退出后，它不久就会自行启动，这个怎么关闭？
Spark SQL 与 Hive 的区别简介【学习笔记】
ExcaliburPrime: 回答得很好！谢谢！
MySQL 创建指定开始日期的日期维度临时表
普通网友: 写的不错，加油,可以抽空回访（评论+点赞）一下我吗？
Spark SQL 与 Hive 的区别简介【学习笔记】
Diego_zh 回复 ASN_forever: 实际跑批任务时数据量有半年、一年甚至更多，量级很大（TB或PB），Spark SQL理论上可以处理，但是它基于内存计算，要处理这么多数据，就得费更多内存，费用就远高于 hive（mapreduce计算殷勤，基于磁盘计算），而业务上并不需要立马跑出结果，所以使用 hive 计算更合理点，性价比更高。
Spark SQL 与 Hive 的区别简介【学习笔记】
ASN_forever: 最后的意思是说，spark SQL是不支持大数量的操作么

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。