Spark基础入门

Spark基础入门

1.概述

  1. Spark是基于内存的 分析计算引擎 ,由于分析计算效率高,用来代替MapReduce, 只计算不存储,存储仍然在HDFS上
  2. Spark有自己的 独立资源调度器 , 因为Spar产生的时候,Yarn还没有推出

在这里插入图片描述

  1. Spark框架的优势
    1. spark基于内存,job与job之间的计算结果不落盘
    2. spark只有shuffle过程中落盘,但不是所有任务都有shuffle
    3. spark比Hadoop快100倍

2.模式

1. local模式:仅在测试使用

我们在linux上需要启动 spark.shell 客户端,然后在网页上访问这个临时客户端 端口号 http://hadoop102:4040

注意:当我们在linux关闭了这个临时客户端,则该端口就无法访问

2. Standalone模式

standalone 模式用的是spark的自己的独立调度器,效率高。当效率需求大时,可以考虑使用Standalone模式

(1)配置文件,解压以后我们需要配置两个文件 slaves 和 spark-env.sh

//修改slave文件,添加work节点:(无空格,五空行,和hadoop的works一样)
//[hadoop102 conf]$ vim slaves
hadoop102
hadoop103
hadoop104

//分别配置work和master

//修改spark-env.sh文件,添加master节点
//[hadoop102 conf]$ mv spark-env.sh.template spark-env.sh
//[hadoop102 conf]$ vim spark-env.sh

SPARK_MASTER_HOST=hadoop102
SPARK_MASTER_PORT=7077

(2)Standalone 模式下的资源调度

在这里插入图片描述

在Hadoop之中,Yarn负责资源调度。我们也可以使用Yarn模式-分析计算采用spark. 在Standalone模式中,负责资源调度的是Master(类似于Yarn中的ResourceManager), 对比如下

Yarn资源调度 --------------------- 独立资源调度

ResourceManager --------------Master

NodeManager ------------------- Workers

MRAppMaster ------------------- Driver

Container --------------------------Executor (注意在standalone模式下,任务由Executor直接执行,没有Container)

在这里插入图片描述

Standalone模式是Spark自带的资源调动引擎,构建一个由Master + Slave构成的Spark集群,Spark运行在集群中。

这个要和Hadoop中的Standalone区别开来。这里的Standalone是指只用Spark来搭建一个集群,不需要借助Hadoop的Yarn和Mesos等其他框架。

StandAlone模式是一套由Master + Slave构成的Spark集群。

Yarn模式是(HDFS 存储+ YARN资源调度 + Spark计算分析) 的一套集群。因此在运行Yarn模式时,并不需要启动 Master和Work ( 这是Standalone模式下资源调度)

(3)Standalone模式下的常用端口号:内部通信端口 7077,web端查看任务运行情况(web 访问 Master):hadoop102:8080

注意:在通过zookkeeper配置高可时,由于#Zookeeper3.5的AdminServer默认端口是8080,和Spark的WebUI冲突,因此我们spark Web访问改用 8989

(4)spark提交参数 : 内存、CPU master jar jar参数
128m数据 => 1g内存
CPU核数 => 一个CPU对应一个分区

(6)运行流程

在Standalone模式中: 客户端模式,集群模式 都是属于集群模式,只不过是Driver运行的节点不同

客户端模式: 表示Driver程序运行在本地客户端 --deploy-mode client

集群模式:表示Driver程序运行在集群 --deploy-mode cluster

(客户端模式,运行结果会直接打印在客户端,集群模式结果在集群上,去Master web端Excutor上查看 默认端口8020我们修改成了8989)

//Spark有standalone-client和standalone-cluster两种模式,主要区别在于:Driver程序的运行节点。

bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://hadoop102:7077,hadoop103:7077 \
--executor-memory 2G \
--total-executor-cores 2 \
--deploy-mode client \
./examples/jars/spark-examples_2.12-3.0.0.jar \
10

//客户端模式,集群模式 都是属于集群模式,只不过是Driver运行的节点不同,
--deploy-mode client 客户端模式: 表示Driver程序运行在本地客户端,Driver位于启动该命令的机器上

集群模式模式
[@hadoop102 spark-standalone]$ bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://hadoop102:7077,hadoop103:7077 \
--executor-memory 2G \
--total-executor-cores 2 \
--deploy-mode cluster \
./examples/jars/spark-examples_2.12-3.0.0.jar \
10

//--deploy-mode cluster,表示Driver程序运行在集群


Standalone Clinet 运行流程

在这里插入图片描述

Standalone Cluster 运行流程

在这里插入图片描述

3. Yarn模式(最常用)

1.文件参数配置

只需要在sprak-env.sh中配置

YARN_CONF_DIR=/opt/module/hadoop-3.1.3/etc/hadoop

2.运行模式(同Standalone, yarn模式也有两种不同的集群运行模式)
YarnClinet (Yarn客户端模式)

在这里插入图片描述

YarnCluster (Yarn集群模式)

在这里插入图片描述

3.Mesos模式(了解)

Spark客户端直接连接Mesos;不需要额外构建Spark集群。国内应用比较少,更多的是运用Yarn调度。

4.几种模式对比

模式Spark安装机器数需启动的进程所属者
Local1Spark
Standalone3Master及WorkerSpark
Yarn1Yarn及HDFSHadoop

5.端口号总结

1)Spark查看当前Spark-shell运行任务情况端口号:4040

2)Spark Master内部通信服务端口号:7077 (类比于Hadoop的8020(9000)端口))

3)Spark Standalone模式Master Web端口号:8080(类比于Hadoop YARN任务运行情况查看端口号:8088)

4)Spark历史服务器端口号:18080 (类比于Hadoop历史服务器端口号:19888)

(类比于Hadoop的8020(9000)端口))

3)Spark Standalone模式Master Web端口号:8080(类比于Hadoop YARN任务运行情况查看端口号:8088)

4)Spark历史服务器端口号:18080 (类比于Hadoop历史服务器端口号:19888)

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值