spark总体体系学习
- scala语言学习
- spark基础操作(spark基础,spark core,spark sql,spark streaming)
- 高级(spark内核机制、spark性能调优)
spark是一种基于***内存 ***的快速、通用、可扩展的大数据分析引擎。
**
Spark的运行模式
**
集群角色:
master和works;Driver和Executor
Driver(驱动器)负责的任务(main方法进程):
(1)把用户程序转为任务;
(2)跟踪Executor的运行状况
(3)为执行器节点调度任务
(4)UI展现运行状况
Executor(执行器):
(1)负责运行组成spark应用的任务,并将结果返回给驱动进程;
(2)通过自身的块管理器为用户程序中要求缓存的RDD提供内存式存储。RDD是直接缓存在Executor进程内,因此任务可以载运行时充分利用缓存数据加速运算。
Local模式
本地模式,本机练手和测试,
local[*]:这种模式直接按照cpu的最多核心数
安装spark
下载spark-2.1.1-bin-hadoop2.7.tgz
国内下载比较慢,可以搭个梯度爬出去。。。。。
下载好了之后解压到自己要放的目录下
bin目录下是操作指令,sbin目录下是启动关闭指令
可以rm -rf *.cmd
cmd在linux中一点用也没有