Spark SQL｜Spark，从入门到精通

最新推荐文章于 2024-08-16 20:58:31 发布

yiyidsj

最新推荐文章于 2024-08-16 20:58:31 发布

阅读量877

点赞数 1

分类专栏：大数据互联网人工智能文章标签： Spark 大数据大数据学习大数据开发大数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yiyidsj/article/details/104182964

版权

本文详细介绍了Spark SQL的发展历程、接口、Dataframe/Dataset API、基本操作、分区与排序、SQL编程、用户自定义函数以及数据源的使用。通过实例展示了Spark SQL如何读写数据、执行优化以及自定义优化器和执行计划。此外，还涵盖了与Hive的兼容性和使用Hive元数据的方法。

摘要由CSDN通过智能技术生成

Spark SQL 在 Hive 兼容层面仅依赖 HQL parser、Hive Metastore 和 Hive SerDe。也就是说，从 HQL 被解析成抽象语法树(AST)起，就全部由 Spark SQL 接管了。

Spark SQL｜Spark，从入门到精通

发家史

熟悉 Spark SQL 的都知道，Spark SQL 是从 Shark 发展而来。Shark 为了实现 Hive 兼容，在 HQL 方面重用了 Hive 中 HQL 的解析、逻辑执行计划翻译、执行计划优化等逻辑，可以近似认为仅将物理执行计划从 MR 作业替换成了 Spark 作业(辅以内存列式存储等各种和 Hive 关系不大的优化);同时还依赖 Hive Metastore 和 Hive SerDe(用于兼容现有的各种 Hive 存储格式)。

Spark SQL 在 Hive 兼容层面仅依赖 HQL parser、Hive Metastore 和 Hive SerDe。也就是说，从 HQL 被解析成抽象语法树(AST)起，就全部由 Spark SQL 接管了。执行计划生成和优化都由 Catalyst 负责。借助 Scala 的模式匹配等函数式语言特性，利用 Catalyst 开发执行计划优化策略比 Hive 要简洁得多。成都加米谷大数据培训机构，大数据开发，数据分析与挖掘，2019春节前预报名学费特惠，详情见加米谷大数据官网。

Spark SQL｜Spark，从入门到精通

Spark SQL

Spark SQL 提供了多种接口：

纯 Sql 文本;

dataset/dataframe api。

当然，相应的，也会有各种客户端：

sql 文本，可以用 thriftserver/spark-sql;

编码，Dataframe/dataset/sql。

Dataframe/Dataset API 简介

Dataframe/Dataset 也是分布式数据集，但与 RDD 不同的是其带有 schema 信息，类似一张表。

可以用下面一张图详细对比 Dataset/dataframe 和 RDD 的区别：

Spark SQL｜Spark，从入门到精通

Dataset 是在 spark1.6 引入的，目的是提供像 RDD 一样的强类型、使用强大的 lambda 函数，同时使用 Spark SQL 的优化执行引擎。到 spark2.0 以后，DataFrame 变成类型为 Row 的 Dataset，即为：

type DataFrame = Dataset[Row]

Spark SQL｜Spark，从入门到精通

所以，很多移植 spark1.6 及之前的代码到 spark2+的都会报错误，找不到 dataframe 类。

基本操作

val df = spark.read.json(“file:///opt/meitu/bigdata/src/main/data/people.json”)

df.show()

import spark.implicits._

df.printSchema()

df.select("name").show()

df.select($"name", $"age" + 1).show()

df.filter($"age" > 21).show()

df.groupBy("age").count().show()

spark.stop()

分区分桶排序

分桶排序保存hive表

df.write.bucketBy(42,“name”).sortBy(“age”).saveAsTable(“people_bucketed”)

分区以parquet输出到指定目录

df.write.partitionBy("favorite_color").format("parquet").save("namesPartByColor.parquet")

分区分桶保存到hive表

df.write .partitionBy("favorite_color").bucketBy(42,"name").saveAsTable("users_partitioned_bucketed")

cube rullup pivot

cube

sales.cube("city", "year”).agg(sum("amount")as "amount”) .show()

rull up

sales.rollup("city", "year”).agg(sum("amount")as "amount”).show()

pivot 只能跟在groupby之后

sales.groupBy("year").pivot("city",Seq("Warsaw","Boston","Toronto")).agg(sum("amount")as "amount”).show()

SQL 编程

Spark SQL 允许用户提交 SQL 文本，支持以下三种手段编写 SQL 文本：

1. spark 代码

2. spark-sql的shell

3. thriftserver

支持 Spark SQL 自身的语法，同时也兼容 HSQL。

1. 编码

要先声明构建 SQLContext 或者 SparkSession，这个是 SparkSQL 的编码入口。早起的版本使用的是 SQLContext 或者 HiveContext，spark2 以后，建议使用的是 SparkSession。

SQLContext

new SQLContext(SparkContext)

最低0.47元/天解锁文章

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。