Spark是大数据处理中的一个非常重要的组件,一般使用Hadoop在底层作为分布式存储系统,上层使用Spark代替Hadoop原来的MapReduce此外还提供RDD编程、Spark SQL、流计算和机器学习。它功能齐全、计算速度快,可以使用Scala语言、python、Java进行编程,那么在本周学习了Spark的相关内容,目录如下:
一、Spark的设计与运行原理
- Spark概述
- Spark生态系统
- Spark运行架构
- 部署和应用方式
二、Spark环境搭建和使用方法
- 安装Spark
- 在Spark shell中运行代码
- 开发Spark独立应用程序
- 集群环境搭建
- 在集群上运行Spark代码
三、RDD编程
- RDD编程基础(创建、操作、持久化、分区作用与创建)
- 键值对RDD(创建、常用的转换操作、综合案例)
- 文件读写(文件系统、json、Hbase)
- 综合案例(Top N、最值、文件排序、二次排序、连接操作)
四、Spark SQL
- Spark SQL简介
- DataFrame
- 从RDD转换到DataFrame(反射机制推断、编程定义)
- 使用Spark SQL读写数据库
五、Spark Streaming(流计算)
- 概述
- Dstream概述
- 基本输入源
- 高级输入源
- 转换操作
- 输出操作
六、Spark MLib(机器学习)
- Spark MLib简介
- 机器学习流水线
- 特征抽取、转化和选择
- 分类与回归
大概就是这些内容啦。后面两章打算以后实际使用时再认真学习,先把基础内容掌握吃透,比如说Scala语言、RDD编程、Spark SQL,还有python语言操作RDD,后面再考虑要不要学习R语言。
这就是最近的学习内容,列个提纲,免得忘光。