SparkSQL基本概述

基本概述

概念

它是Spark生态系统中专门处理结构化数据的模块。

SparkSQL与SparkCore数据对比

SparkCore

在这里插入图片描述

优缺点:

优点:灵活,可以使用底层的API完成很复杂的业务
缺点:有一定的学习成本/入门门槛

SparkSQL
对于一些数据科学家/数据库管理员/DBA,要求他们为了做一个非常简单的查询,写一大堆代码,明显是一件非常麻烦的事情,所以使用常见的SQL很方便。
在这里插入图片描述

优缺点:

优点:入门门槛低,只要会英文单词/简单语法规则就可以写
缺点:只能做一些简单的业务,复杂业务实现起来较困难

注:SparkSQL也支持像SparkCore一样对数据的操作,具体的由我们接下来学习。

SparkSQL的诞生和发展历史

在这里插入图片描述

  1. 在Spark1.0之前:没有SparkSQL,有一个开源项目shark底层使用Spark作为Hive的执行引擎。
  2. Spark1.0时: Spark自己开发了新的组件:SparkSQL,使用SchemaRDD(带约束的RDD)对RDD进行封装,用来表示带有约束的RDD
  3. Spark1.3时: SparkSQL开发了新的数据抽象:DataFrame:底层实现了RDD的大部分功能,并增加了SQL操作,不再强依赖RDD,但不支持泛型
  4. Spark1.6时: SparkSQL开发了新的数据抽象:DataSet:支持泛型
  5. Spark2.0时:统一了DataFrame和DataSet: DataSet[Row]= DataFrame,且增加了新的组件:StructuredStreaming支持SQL处理流数据

注:

  1. SparkSQL发展历史较为曲折,走了很多弯路,但也都是必须要的,因为要兼容其他语言。
  2. 尽管SparkSQL的API很多(且支持很多编程语言),但是使用起来很友好,底层也都做了很多的性能优化。
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大数据老人家i

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值