SparkSQL 初识

JOEL-T99

于 2021-12-21 22:35:11 发布

阅读量1.3k

点赞数

分类专栏： BigData 文章标签： spark spark sql

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_47243236/article/details/122075034

版权

BigData 专栏收录该内容

58 篇文章

订阅专栏

1. Spark SQL 初识

1.1 Spark SQL 是什么

Spark SQL 是 Apache Spark 的用于处理结构化数据（Structured Data）的模块。

1.2 Spark SQL 特点

集成： Spark 程序可实现与 SQL 查询的无缝对接。我们可以通过 Java、Scala、Python 或 R 语言利用 Spark SQL 将结构化数据作为 Spark 中的弹性分布式数据集（RDD）进行查询。

统一的数据访问： DataFrames 和 SQL 提供了访问各种数据源的通用方法，包括 Hive、Avro、Parquet、ORC、JSON 和 JDBC。

兼容 Hive： 可实现在现有仓库上运行 SQL 或 HiveQL 查询。Spark SQL 支持 HiveQL 语法以及 Hive SerDes 和 UDF。

标准数据连接： 通过 JDBC 或 ODBC 连接。

1.3 Spark SQL 数据抽象

Spark Core 中的数据抽象为 RDD（弹性分布式数据集），Spark SQL 中的数据抽象为 DataFrame、DataSet。

RDD、DataFrame、DataSet 在版本上的区别：

RDD (Spark1.0) —> Dataframe(Spark1.3) —> Dataset(Spark1.6)

DataFrame 与 DataSet的关系：

在 Spark API 中，DataFrame=DataSet[Row]

1.3.1 DataFrame

DataFrame 是一种以 RDD 为基础的分布式数据集，具备 RDD 的优点。DataFrame 在概念上等同于关系数据库中的表或 R、Python（Pandas）中的 DataFrame。

DataFrame 与 RDD 的区别在于，DataFrame 带有 schema 元信息，及每一列的名称和类型。RDD是分布式的Java对象的集合。DataFrame 是分布式的Row对象的集合。DataFrame除了提供了比RDD更丰富的算子以外，更重要的特点是提升执行效率、减少数据读取以及执行计划的优化。

与 Hive 类似，DataFrame 支持嵌套数据类型（struct、array、map）。

DataFrame 作为一种抽象，不能直接用来使用，其提供了 Schema 视图，可当作数据库中的表进行操作。

DataFrame 是懒加载的，性能上比 RDD 更高，借势于 Spark SQL Catalyst优化器(树变换框架)。

1.3.2 DataSet

DataSet 是分布式数据集合，是在 Spark 1.6 对 DataFrame，具备 RDD 的优势（强类型、使用 Lambda 函数的能力）及 Spark SQL 优化执行引擎的优点。DataSet 可使用 RDD 的转换因子（如 map、flatMap、filter 等）。

DataSet 是强类型的，DataSet 可利用样例类作为泛型来定义数据的结构信息，样例类的每个属性的名称可直接映射为 DataSet 的字段名称，比如DataSet[Person]。

DataFrame 是 DataSet 的特例，DataFrame=DataSet[Row]。DataFrame 只知道字段不知道字段的类型，所以在编译的时候无法检查类型，只有执行期才会报错；DataSet 知道字段和类型，具备严格的类型检查。

1.4 RDD、DataFrame、DataSet

1.4.1 三者共性

RDD、DataFrame、DataSet 都是 Spark 平台下的分布式弹性数据集。

三者都有惰性机制，即在进行创建、转换时不会立即执行，只有遇到 Action 时，三者才会开始遍历运算。

三者都会根据 Spark 的内存情况自动缓存运算，即使数据量很大，也不用担心内存溢出。

三者都有 Partition（分区）的概念。

DataFrame、DataSet 均可使用模式匹配获取各个字段的值和类型。

1.4.2 三者区别

RDD：

RDD 一般和 Spark ML 同时使用
RDD 不支持 SparkSQL 操作

DataFrame：

DataFrame 每一行的类型固定为 ROW，只有通过解析才能获取到各个字段的值

DataFrame 与 DataSet 都支持 SparkSQL 操作，比如 select、groupby、注册临时View、进行 SQL 语句操作等

DataFrame 与 DataSet 都支持方便的保存方式，比如保存成 csv、json 等

DataSet：

DataSet 与 DataFrame 拥有完全相同的成员函数，区别在于每一行行的数据类型不同

DataSet 支持使用案例类作为每行类型，DataFrame 为 DataSet[Row]，即每行类型为 Row

DataSet 在访问列中的某个字段时非常方便，如果行的类型不能确定，无法实现适配的时候，可以使用较为灵活的 DataFrame！

❤️ END ❤️

博客等级

码龄5年

206
原创

173
点赞

1383
收藏

8001
粉丝

关注

私信

热门文章

分类专栏

BigData 58篇
Maven 31篇
Java 25篇
问题记录 2篇
Linux 17篇
Javaweb 6篇
H5 7篇
机器学习 3篇
MySQL 2篇

最新评论

HUAWEI 机试题：磁盘容量排序
MISAYAONE: 华为OD 2025 最新最全机试题库及讲解，100%通过率。A+B+C+D+E卷题库大全。 Java题库: https://renjie.blog.csdn.net/article/details/127947829 Python题库: https://renjie.blog.csdn.net/article/details/127946125 C++题库: https://renjie.blog.csdn.net/article/details/126965954 Js题库: https://renjie.blog.csdn.net/article/details/128974467 C语言题库: https://renjie.blog.csdn.net/article/details/129190260 面试手撕题库: https://renjie.blog.csdn.net/article/details/130419388
HUAWEI 机试题：参赛团队能力值
MISAYAONE: 华为OD 2025 最新最全机试题库及讲解，100%通过率。A+B+C+D+E卷题库大全。 Java题库: https://renjie.blog.csdn.net/article/details/127947829 Python题库: https://renjie.blog.csdn.net/article/details/127946125 C++题库: https://renjie.blog.csdn.net/article/details/126965954 Js题库: https://renjie.blog.csdn.net/article/details/128974467 C语言题库: https://renjie.blog.csdn.net/article/details/129190260 面试手撕题库: https://renjie.blog.csdn.net/article/details/130419388

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

JOEL-T99 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。