Spark SQL的详细介绍

最新推荐文章于 2024-07-10 21:40:32 发布

十有八九

最新推荐文章于 2024-07-10 21:40:32 发布

阅读量315

点赞数

文章标签： sparksql

本文链接：https://blog.csdn.net/weixin_44694973/article/details/96495431

版权

Spark SQL的前世今生

Shark是一个为Spark设计的大规模数据仓库系统，它与Hive兼容。Shark建立在Hive的代码基础上，并通过将Hive的部分物理执行计划交换出来。
这个方法使得Shark的用户可以加速Hive的查询，但是Shark继承了Hive的大且复杂的代码使得Shark很难优化和维护，同时Shark依赖于Spark的版本。
随着我们遇到了性能优化的上限，以及集成SQL的一些复杂的分析功能，我们发现Hive的MapReduce设计的框架限制了Shark的发展。
在2014年7月1日的Spark Summit上，Databricks宣布终止对Shark的开发，将重点放到Spark SQL上。

在这里插入图片描述
Hive和shark的架构图

什么是Spark SQL

在这里插入图片描述

Spark SQL是Spark用来处理结构化数据的一个模块，它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。
相比于Spark RDD API，Spark SQL包含了对结构化数据和在其上运算的更多信息，Spark SQL使用这些信息进行了额外的优化，使对结构化数据的操作更加高效和方便。
有多种方式去使用Spark SQL，包括SQL、DataFrames API和Datasets API。但无论是哪种API或者是编程语言，它们都是基于同样的执行引擎，因此你可以在不同的API之间随意切换，它们各有各的特点，看你喜欢那种风格。

Spark SQL 可以干什么

我们已经学习了Hive，它是将Hive SQL转换成MapReduce然后提交到集群中去执行，大大简化了编写MapReduce程序的复杂性，由于MapReduce这种计算模型执行效率比较慢，所以Spark SQL应运而生，它是将Spark SQL转换成RDD，然后提交到集群中去运行，执行效率非常快！

易整合
将sql查询与spark程序无缝混合，可以使用java、scala、python、R等语言的API操作。
统一的数据访问
以相同的方式连接到任何数据源。
兼容Hive
支持hiveSQL的语法。
标准的数据连接
可以使用行业标准的JDBC或ODBC连接。

十有八九

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark SQL的详细介绍

Spark SQL的前世今生Shark是一个为Spark设计的大规模数据仓库系统，它与Hive兼容。Shark建立在Hive的代码基础上，并通过将Hive的部分物理执行计划交换出来。这个方法使得Shark的用户可以加速Hive的查询，但是Shark继承了Hive的大且复杂的代码使得Shark很难优化和维护，同时Shark依赖于Spark的版本。随着我们遇到了性能优化的上限，以及集成SQL的一...
复制链接

扫一扫