1、spark基本介绍
1.1、spark基本概念
spark是用于大规模数据处理的统一的分析引擎。其中RDD是一种分布式内存抽象,是的程序员能够在大规模集群中做内存运算,并且有一定的容错方式,这也是整个spark的核心数据结构,spark整个平台也是围绕RDD进行的。
统一的分析引擎?
其特点是对于任意类型的数据进行自定义计算,包括结构化、半结构化、非结构化等各种类型的数据结构进行处理,同时支持使用python、java、Scala、R、SQL语言去开发应用数据计算。
1.2、spark的发展的10年历程
1.3、spark特点
1.3.1、速度快
1.3.2、易于使用
spark的版本已经更新到3.2.0,支持java\scala\python\R\SQL在内的额多种语言,并且容然兼容spark2。
1.3.3、通用性强
1.3.4、运行方式
1.5、spark框架模块的了解
1.6、spark的运行模式
1.7、spark的架构角色
1.7.1,YARE的架构
1.7.2、在spark 中类似YARE的角色对比
对于第一章内容的总结:
1)spark解决了什么问题:
海量数据的计算,可以实现离线批处理以及实时流计算;
2)saprk有哪些模块
- 核心sparkcore
- sql计算(sparkSQL)
- spark流计算(sparkstreaming)
- 图计算(spark Graphx)
- 机器学习 (MLlib)
- 其中对于流计算现在已经很少用sparkstreaming,主要用structuredstreaming为主要的流计算。
3)spark特点有哪些
速度快、使用简单、通用性强、多模式运行。
4)spark运行模式
- 本地模式
- 集群模式、
- 云模式
5)spark的运行角色(对比 Yarn)
- Master 集群资源管理(类同ResourceManager)
- Worker 单机资源管理(类同NodeManager)
- Driver 单任务管理者(类同Applicationmaster)
- Executor单任务执行者(类同Yarn容器内的Task)
2、spark的安装部
2.1、spark的安装要求
2.2、local模式
2.2.1、基本原理
2.2.2、local的角色分布
知识补充:
进入虚拟环境:source activate +环境名
关闭虚拟环境:source deactivate +环境名