SparkSQL概述

最新推荐文章于 2024-06-17 00:00:00 发布

喻师傅

最新推荐文章于 2024-06-17 00:00:00 发布

阅读量773

点赞数 9

分类专栏： Spark 文章标签： spark 大数据 sql

本文链接：https://blog.csdn.net/weixin_48935611/article/details/139168278

版权

13 篇文章 0 订阅

订阅专栏

Spark概述

在这里插入图片描述

在这里插入图片描述

Spark SQL是用于结构化数据处理的Spark模块。
Spark SQL允许开发人员使用SQL查询和DataFrame API来操作结构化数据，包括从各种数据源中读取数据、执行复杂的数据转换和分析操作，以及将处理结果写回到不同的数据源中。
与基本的Spark RDD API不同，Spark SQL提供的接口为Spark提供了有关数据结构和正在执行的计算的更多信息。
在内部，Spark SQL使用这些额外的信息来执行额外的优化。
与Spark SQL交互的方式有多种，包括SQL和Dataset API。
计算结果时，使用相同的执行引擎，与用于表达计算的API/语言无关。

Spark SQL 的出现主要是为了解决以下几个问题，并为 Spark 生态系统提供更完整的数据处理解决方案。

（1）统一编程模型

（2）性能优化

（3）数据集成

Spark SQL 支持多种数据源，包括 Hive、JSON、Parquet、ORC、JDBC、CSV 等，可以方便地从不同的数据源中读取数据，并将处理结果写回到这些数据源中。

（4）更丰富的数据处理功能

（5）与 Hive 的集成

在这里插入图片描述

1.RDD（Resilient Distributed Dataset）：在 Spark 1.0 中引入了 RDD，它是 Spark 最初的数据抽象和编程模型。RDD 是一个分布式的、不可变的数据集合，可以容错地并行操作。虽然 RDD 提供了强大的抽象和灵活性，但使用起来比较复杂，而且没有提供结构化数据处理的高级接口。
2.DataFrame：在 Spark 1.3 中引入了 DataFrame API，它是对 RDD 的一个抽象，提供了更高级别的接口来操作结构化数据。DataFrame 可以理解为具有命名列的分布式表格，支持类似于 SQL 的查询操作。DataFrame 的引入使得用户可以使用 SQL 查询语言或 DataFrame API 来处理结构化数据，从而简化了数据处理的过程。
3.Dataset：在 Spark 1.6 中引入了 Dataset API，它是对 DataFrame API 的扩展，提供了类型安全的 API，并支持更丰富的数据结构和操作。Dataset 可以看作是强类型的 DataFrame，能够在编译时捕获数据处理中的错误，并提供更好的性能优化。Dataset API 的引入使得 Spark SQL 在类型安全性和表达能力上有了更大的提升，同时也为 Spark SQL 的未来发展奠定了基础。

RDD（Spark1.0）=》Dataframe（Spark1.3）=》Dataset（Spark1.6）