SparkSQL基本概述

最新推荐文章于 2023-11-06 10:51:59 发布

大数据老人家i

最新推荐文章于 2023-11-06 10:51:59 发布

阅读量387

点赞数

分类专栏： Spark 文章标签：大数据

本文链接：https://blog.csdn.net/zh2475855601/article/details/116137795

版权

26 篇文章 2 订阅

订阅专栏

基本概述

它是Spark生态系统中专门处理结构化数据的模块。

SparkCore

在这里插入图片描述

优缺点：

优点：灵活,可以使用底层的API完成很复杂的业务
缺点：有一定的学习成本/入门门槛

SparkSQL
对于一些数据科学家/数据库管理员/DBA,要求他们为了做一个非常简单的查询,写一大堆代码,明显是一件非常麻烦的事情,所以使用常见的SQL很方便。
在这里插入图片描述

优缺点：

优点：入门门槛低,只要会英文单词/简单语法规则就可以写
缺点：只能做一些简单的业务,复杂业务实现起来较困难

注：SparkSQL也支持像SparkCore一样对数据的操作,具体的由我们接下来学习。

在这里插入图片描述

在Spark1.0之前：没有SparkSQL,有一个开源项目shark底层使用Spark作为Hive的执行引擎。
Spark1.0时: Spark自己开发了新的组件:SparkSQL,使用SchemaRDD(带约束的RDD)对RDD进行封装,用来表示带有约束的RDD
Spark1.3时: SparkSQL开发了新的数据抽象:DataFrame:底层实现了RDD的大部分功能,并增加了SQL操作,不再强依赖RDD,但不支持泛型
Spark1.6时: SparkSQL开发了新的数据抽象:DataSet:支持泛型
Spark2.0时:统一了DataFrame和DataSet: DataSet[Row]= DataFrame,且增加了新的组件:StructuredStreaming支持SQL处理流数据

注：

关注