1.快速入门
1.1 什么是SparkSQL
1.2 为什么要学习SparkSQL
1.3 SparkSQL特点
2.SparkSQL概述
2.1 SparkSQL和Hive的异同
2.2 SparkSQL的数据抽象
2.3 DataFrame数据抽象
2.4 SparkSession对象
2.5 SparkSQL helloworld
3.DataFrame入门和操作
3.1 DataFrame的组成
3.2 DataFrame的代码构建
-
基于RDD方式
-
通过structType描述表结构
-
toDF方法
-
基于pandas的DataFrame
-
通过API读取外部数据
-
基于json
-
基于CSV
-
读取parquet
-
3.3 DataFrame的入门操作
-
DSL风格
-
SQL风格
3.4 词频统计案例
words.txt内容:
hello hadoop
hello spark
hello flink
hadoop spark
3.5 电影数据分析
数据内容:
- 需求1:
- 需求2
- 需求3
- 需求4
- 需求5
3.6 SparkSQL Shuffle 分区数目
3.7 SparkSQL 数据清洗API
- 去重方法 dropDuplicates
- 缺失值处理
- 删除
- 填充
3.8DataFrame的数据写出
3.9 DataFrame通过JDBC读写MYSQL
4.SparkSQL函数定义
4.1 SparkSQL定义UDF函数
- UDF返回数字型的
- 模拟UDTF返回list型的
- 模拟UDTF返回字典型
list和字典相当于模拟UDTF,一对多的关系。 - 模拟UDAF,多对一关系
4.2 SparkSQL使用窗口函数
5.SparkSQL的运行流程
5.1 SparkRDD的执行流程回顾
5.2 SparkSQL的自动优化
5.3 Catalyst优化器
5.4 SparkSQL的执行流程
6.SparkSQL整合Hive
6.1 原理
6.2 配置
6.3 在代码中集成
7.分布式SQL引擎配置
7.1 概念
7.2 客户端工具连接
Dbeaver