Spark基础入门
1.概述
- Spark是基于内存的 分析计算引擎 ,由于分析计算效率高,用来代替MapReduce, 只计算不存储,存储仍然在HDFS上
- Spark有自己的 独立资源调度器 , 因为Spar产生的时候,Yarn还没有推出
- Spark框架的优势
- spark基于内存,job与job之间的计算结果不落盘
- spark只有shuffle过程中落盘,但不是所有任务都有shuffle
- spark比Hadoop快100倍
2.模式
1. local模式:仅在测试使用
我们在linux上需要启动 spark.shell 客户端,然后在网页上访问这个临时客户端 端口号 http://hadoop102:4040
注意:当我们在linux关闭了这个临时客户端,则该端口就无法访问
2. Standalone模式
standalone 模式用的是spark的自己的独立调度器,效率高。当效率需求大时,可以考虑使用Standalone模式
(1)配置文件,解压以后我们需要配置两个文件 slaves 和 spark-env.sh
//修改slave文件,添加work节点:(无空格,五空行,和hadoop的works一样)
//[hadoop102 conf]$ vim slaves
hadoop102
hadoop103
hadoop104
//分别配置work和master
//修改spark-env.sh文件,添加master节点
//[hadoop102 conf]$ mv spark-env.sh.template spark-env.sh
//[hadoop102 conf]$ vim spark-env.sh
SPARK_MASTER_HOST=hadoop102
SPARK_MASTER_PORT=7077
(2)Standalone 模式下的资源调度
在Hadoop之中,Yarn负责资源调度。我们也可以使用Yarn模式-分析计算采用spark. 在Standalone模式中,负责资源调度的是Master(类似于Yarn中的ResourceManager), 对比如下
Yarn资源调度 --------------------- 独立资源调度
ResourceManager --------------Master
NodeManager ------------------- Workers
MRAppMaster ------------------- Driver
Container --------------------------Executor (注意在standalone模式下,任务由Executor直接执行,没有Container)
Standalone模式是Spark自带的资源调动引擎,构建一个由Master + Slave构成的Spark集群,Spark运行在集群中。
这个要和Hadoop中的Standalone区别开来。这里的Standalone是指只用Spark来搭建一个集群,不需要借助Hadoop的Yarn和Mesos等其他框架。
StandAlone模式是一套由Master + Slave构成的Spark集群。
Yarn模式是(HDFS 存储+ YARN资源调度 + Spark计算分析) 的一套集群。因此在运行Yarn模式时,并不需要启动 Master和Work ( 这是Standalone模式下资源调度)
(3)Standalone模式下的常用端口号:内部通信端口 7077,web端查看任务运行情况(web 访问 Master):hadoop102:8080
注意:在通过zookkeeper配置高可时,由于#Zookeeper3.5的AdminServer默认端口是8080,和Spark的WebUI冲突,因此我们spark Web访问改用 8989
(4)spark提交参数 : 内存、CPU master jar jar参数
128m数据 => 1g内存
CPU核数 => 一个CPU对应一个分区
(6)运行流程
在Standalone模式中: 客户端模式,集群模式 都是属于集群模式,只不过是Driver运行的节点不同
客户端模式: 表示Driver程序运行在本地客户端 --deploy-mode client
集群模式:表示Driver程序运行在集群 --deploy-mode cluster
(客户端模式,运行结果会直接打印在客户端,集群模式结果在集群上,去Master web端Excutor上查看 默认端口8020我们修改成了8989)
//Spark有standalone-client和standalone-cluster两种模式,主要区别在于:Driver程序的运行节点。
bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://hadoop102:7077,hadoop103:7077 \
--executor-memory 2G \
--total-executor-cores 2 \
--deploy-mode client \
./examples/jars/spark-examples_2.12-3.0.0.jar \
10
//客户端模式,集群模式 都是属于集群模式,只不过是Driver运行的节点不同,
--deploy-mode client 客户端模式: 表示Driver程序运行在本地客户端,Driver位于启动该命令的机器上
集群模式模式
[@hadoop102 spark-standalone]$ bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://hadoop102:7077,hadoop103:7077 \
--executor-memory 2G \
--total-executor-cores 2 \
--deploy-mode cluster \
./examples/jars/spark-examples_2.12-3.0.0.jar \
10
//--deploy-mode cluster,表示Driver程序运行在集群
Standalone Clinet 运行流程
Standalone Cluster 运行流程
3. Yarn模式(最常用)
1.文件参数配置
只需要在sprak-env.sh中配置
YARN_CONF_DIR=/opt/module/hadoop-3.1.3/etc/hadoop
2.运行模式(同Standalone, yarn模式也有两种不同的集群运行模式)
YarnClinet (Yarn客户端模式)
YarnCluster (Yarn集群模式)
3.Mesos模式(了解)
Spark客户端直接连接Mesos;不需要额外构建Spark集群。国内应用比较少,更多的是运用Yarn调度。
4.几种模式对比
模式 | Spark安装机器数 | 需启动的进程 | 所属者 |
---|---|---|---|
Local | 1 | 无 | Spark |
Standalone | 3 | Master及Worker | Spark |
Yarn | 1 | Yarn及HDFS | Hadoop |
5.端口号总结
1)Spark查看当前Spark-shell运行任务情况端口号:4040
2)Spark Master内部通信服务端口号:7077 (类比于Hadoop的8020(9000)端口))
3)Spark Standalone模式Master Web端口号:8080(类比于Hadoop YARN任务运行情况查看端口号:8088)
4)Spark历史服务器端口号:18080 (类比于Hadoop历史服务器端口号:19888)
(类比于Hadoop的8020(9000)端口))
3)Spark Standalone模式Master Web端口号:8080(类比于Hadoop YARN任务运行情况查看端口号:8088)
4)Spark历史服务器端口号:18080 (类比于Hadoop历史服务器端口号:19888)