Spark基础入门

最新推荐文章于 2024-05-14 11:43:48 发布

williamccc

最新推荐文章于 2024-05-14 11:43:48 发布

阅读量199

点赞数 1

分类专栏： spark 文章标签： spark

本文链接：https://blog.csdn.net/williamccc/article/details/108724265

版权

spark 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Spark基础入门

1.概述

Spark是基于内存的 分析计算引擎 ，由于分析计算效率高，用来代替MapReduce, 只计算不存储，存储仍然在HDFS上
Spark有自己的 独立资源调度器 , 因为Spar产生的时候，Yarn还没有推出

在这里插入图片描述

Spark框架的优势
1. spark基于内存，job与job之间的计算结果不落盘
2. spark只有shuffle过程中落盘，但不是所有任务都有shuffle
3. spark比Hadoop快100倍

2.模式

1. local模式:仅在测试使用

我们在linux上需要启动 spark.shell 客户端，然后在网页上访问这个临时客户端端口号 http://hadoop102:4040

注意：当我们在linux关闭了这个临时客户端，则该端口就无法访问

2. Standalone模式

standalone 模式用的是spark的自己的独立调度器，效率高。当效率需求大时，可以考虑使用Standalone模式

（1）配置文件，解压以后我们需要配置两个文件 slaves 和 spark-env.sh

//修改slave文件，添加work节点：（无空格，五空行，和hadoop的works一样）
//[hadoop102 conf]$ vim slaves
hadoop102
hadoop103
hadoop104

//分别配置work和master

//修改spark-env.sh文件，添加master节点
//[hadoop102 conf]$ mv spark-env.sh.template spark-env.sh
//[hadoop102 conf]$ vim spark-env.sh

SPARK_MASTER_HOST=hadoop102
SPARK_MASTER_PORT=7077

（2）Standalone 模式下的资源调度

在这里插入图片描述

在Hadoop之中，Yarn负责资源调度。我们也可以使用Yarn模式-分析计算采用spark. 在Standalone模式中，负责资源调度的是Master(类似于Yarn中的ResourceManager), 对比如下

Yarn资源调度 --------------------- 独立资源调度

ResourceManager --------------Master

NodeManager ------------------- Workers

MRAppMaster ------------------- Driver

Container --------------------------Executor (注意在standalone模式下，任务由Executor直接执行，没有Container)

在这里插入图片描述

Standalone模式是Spark自带的资源调动引擎，构建一个由Master + Slave构成的Spark集群，Spark运行在集群中。

这个要和Hadoop中的Standalone区别开来。这里的Standalone是指只用Spark来搭建一个集群，不需要借助Hadoop的Yarn和Mesos等其他框架。

StandAlone模式是一套由Master + Slave构成的Spark集群。

Yarn模式是(HDFS 存储+ YARN资源调度 + Spark计算分析) 的一套集群。因此在运行Yarn模式时，并不需要启动 Master和Work ( 这是Standalone模式下资源调度)

（3）Standalone模式下的常用端口号：内部通信端口 7077，web端查看任务运行情况(web 访问 Master)：hadoop102:8080

注意：在通过zookkeeper配置高可时，由于#Zookeeper3.5的AdminServer默认端口是8080，和Spark的WebUI冲突，因此我们spark Web访问改用 8989

（4）spark提交参数：内存、CPU master jar jar参数
128m数据 => 1g内存
CPU核数 => 一个CPU对应一个分区

（6）运行流程

在Standalone模式中: 客户端模式，集群模式都是属于集群模式，只不过是Driver运行的节点不同

客户端模式: 表示Driver程序运行在本地客户端 --deploy-mode client

集群模式：表示Driver程序运行在集群 --deploy-mode cluster

(客户端模式，运行结果会直接打印在客户端，集群模式结果在集群上，去Master web端Excutor上查看默认端口8020我们修改成了8989)

//Spark有standalone-client和standalone-cluster两种模式，主要区别在于：Driver程序的运行节点。

bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://hadoop102:7077,hadoop103:7077 \
--executor-memory 2G \
--total-executor-cores 2 \
--deploy-mode client \
./examples/jars/spark-examples_2.12-3.0.0.jar \
10

//客户端模式，集群模式 都是属于集群模式，只不过是Driver运行的节点不同，
--deploy-mode client 客户端模式: 表示Driver程序运行在本地客户端，Driver位于启动该命令的机器上

集群模式模式
[@hadoop102 spark-standalone]$ bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://hadoop102:7077,hadoop103:7077 \
--executor-memory 2G \
--total-executor-cores 2 \
--deploy-mode cluster \
./examples/jars/spark-examples_2.12-3.0.0.jar \
10

//--deploy-mode cluster，表示Driver程序运行在集群

Standalone Clinet 运行流程

在这里插入图片描述

Standalone Cluster 运行流程

在这里插入图片描述

3. Yarn模式(最常用)

1.文件参数配置

只需要在sprak-env.sh中配置

YARN_CONF_DIR=/opt/module/hadoop-3.1.3/etc/hadoop

2.运行模式(同Standalone, yarn模式也有两种不同的集群运行模式)

YarnClinet （Yarn客户端模式）

在这里插入图片描述

YarnCluster (Yarn集群模式）

在这里插入图片描述

3.Mesos模式（了解）

Spark客户端直接连接Mesos；不需要额外构建Spark集群。国内应用比较少，更多的是运用Yarn调度。

4.几种模式对比

模式	Spark安装机器数	需启动的进程	所属者
Local	1	无	Spark
Standalone	3	Master及Worker	Spark
Yarn	1	Yarn及HDFS	Hadoop

5.端口号总结

1）Spark查看当前Spark-shell运行任务情况端口号：4040

2）Spark Master内部通信服务端口号：7077 （类比于Hadoop的8020（9000）端口））

3）Spark Standalone模式Master Web端口号：8080（类比于Hadoop YARN任务运行情况查看端口号：8088）

4）Spark历史服务器端口号：18080 （类比于Hadoop历史服务器端口号：19888）

（类比于Hadoop的8020（9000）端口））

3）Spark Standalone模式Master Web端口号：8080（类比于Hadoop YARN任务运行情况查看端口号：8088）

4）Spark历史服务器端口号：18080 （类比于Hadoop历史服务器端口号：19888）

williamccc

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark基础入门

Spark基础入门1.概述Spark是基于内存的分析计算引擎，由于分析计算效率高，用来代替MapReduce, 只计算不存储，存储仍然在HDFS上Spark有自己的独立资源调度器 , 因为Spar产生的时候，Yarn还没有推出Spark框架的优势spark基于内存，job与job之间的计算结果不落盘spark只有shuffle过程中落盘，但不是所有任务都有shufflespark比Hadoop快100倍2.模式1. local模式:仅在测试使用我们在linux上需
复制链接

扫一扫