Spark SQL概述

最新推荐文章于 2023-08-04 14:34:22 发布

Prince_96❤

最新推荐文章于 2023-08-04 14:34:22 发布

阅读量329

点赞数 1

分类专栏： spark 文章标签： spark sql

本文链接：https://blog.csdn.net/weixin_44541320/article/details/124942229

版权

3 篇文章 1 订阅

订阅专栏

Spark SQL官方介绍

官网：http://spark.apache.org/sql/
Spark SQL是Spark用来处理结构化数据的一个模块。
Spark SQL还提供了多种使用方式，包括DataFrames API和Datasets API。但无论是哪种API或者是编程语言，它们都是基于同样的执行引擎，因此你可以在不同的API之间随意切换，它们各有各的特点。

Spark SQL 的特点

SQL优缺点

SQL的优点
表达非常清晰, 比如说这段 SQL 明显就是为了查询三个字段，条件是查询年龄大于 10 岁的
难度低、易学习。
SQL的缺点
复杂分析,SQL嵌套较多：试想一下3层嵌套的 SQL维护起来应该挺力不从心的吧
机器学习较难：试想一下如果使用SQL来实现机器学习算法也挺为难的吧

Hive和SparkSQL

在这里插入图片描述

什么是DataSet
DataSet是保存了更多的描述信息，类型信息的分布式数据集。
与RDD相比，保存了更多的描述信息，概念上等同于关系型数据库中的二维表。
与DataFrame相比，保存了类型信息，是强类型的，提供了编译时类型检查，
调用Dataset的方法先会生成逻辑计划，然后被spark的优化器进行优化，最终生成物理计划，然后提交到集群中运行！

DataSet包含了DataFrame的功能，
Spark2.0中两者统一，DataFrame表示为DataSet[Row]，即DataSet的子集。
DataFrame其实就是Dateset[Row]

结构图解
在这里插入图片描述

关注