Spark - 概述&模式部署

最新推荐文章于 2022-06-17 09:57:14 发布

kinifine

最新推荐文章于 2022-06-17 09:57:14 发布

阅读量435

点赞数

文章标签： spark

本文链接：https://blog.csdn.net/wfslife/article/details/106538306

版权

概述

Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。

Spark
　Spark是一种由Scala语言开发的快速、通用、可扩展的大数据分析引擎
　Spark Core中提供了Spark最基础与最核心的功能
　Spark SQL是Spark用来操作结构化数据的组件。通过Spark SQL，用户可以使用SQL或者Apache Hive版本的SQL方言（HQL）来查询数据。
　Spark Streaming是Spark平台上针对实时数据进行流式计算的组件，提供了丰富的处理数据流的API。
　Spark主要功能主要是用于数据计算，所以其实Spark一直被认为是Hadoop MR框架的升级版

核心模块

在这里插入图片描述

Spark Core
Spark Core中提供了Spark最基础与最核心的功能，Spark其他的功能如：Spark SQL，Spark Streaming，GraphX, MLlib都是在Spark Core的基础上进行扩展的
Spark SQL
Spark SQL是Spark用来操作结构化数据的组件。通过Spark SQL，用户可以使用SQL或者Apache Hive版本的SQL方言（HQL）来查询数据。
Spark Streaming
Spark Streaming是Spark平台上针对实时数据进行流式计算的组件，提供了丰富的处理数据流的API。
Spark MLlib
MLlib是Spark提供的一个机器学习算法库。MLlib不仅提供了模型评估、数据导入等额外的功能，还提供了一些更底层的机器学习原语。
Spark GraphX
GraphX是Spark面向图计算提供的框架与算法库。

IDEA中使用Spark

增加Scala插件
　　Spark由Scala语言开发的，所以Spark开发中所使用的语言就是Scala，当前的Spark版本为2.4.5，默认采用的Scala版本为2.12。开发前请保证IDEA开发工具中含有Scala开发插件。
增加依赖关系

	<dependencies>
	    <dependency>
	        <groupId>org.apache.spark</groupId>
	        <artifactId>spark-core_2.12</artifactId>
	        <version>2.4.5</version>
	    </dependency>
	</dependencies>
	<build>
	    <plugins>
	        <!-- 该插件用于将Scala代码编译成class文件 -->
	        <plugin>
	            <groupId>net.alchim31.maven</groupId>
	            <artifactId>scala-maven-plugin</artifactId>
	            <version>3.2.2</version>
	            <executions>
	                <execution>
	                    <!-- 声明绑定到maven的compile阶段 -->
	                    <goals>
	                        <goal>testCompile</goal>
	                    </goals>
	                </execution>
	            </executions>
	        </plugin>
	        <plugin>
	            <groupId>org.apache.maven.plugins</groupId>
	            <artifactId>maven-assembly-plugin</artifactId>
	            <version>3.0.0</version>
	            <configuration>
	                <descriptorRefs>
	                    <descriptorRef>jar-with-dependencies</descriptorRef>
	                </descriptorRefs>
	            </configuration>
	            <executions>
	                <execution>
	                    <id>make-assembly</id>
	                    <phase>package</phase>
	                    <goals>
	                        <goal>single</goal>
	                    </goals>
	                </execution>
	            </executions>
	        </plugin>
	    </plugins>
	</build>

WordCount案例

	// 创建Spark运行配置对象
	val sparkConf = new SparkConf().setMaster("local[*]").setAppName("WordCount")
	
	// 创建Spark上下文环境对象（连接对象）
	val sc : SparkContext = new SparkContext(sparkConf)
	
	// 读取文件数据
	val fileRDD: RDD[String] = sc.textFile("input/word.txt")
	
	// 将文件中的数据进行分词
	val wordRDD: RDD[String] = fileRDD.flatMap( _.split(" ") )
	
	// 转换数据结构 word => (word, 1)
	val word2OneRDD: RDD[(String, Int)] = wordRDD.map((_,1))
	
	// 将转换结构后的数据按照相同的单词进行分组聚合
	val word2CountRDD: RDD[(String, Int)] = word2OneRDD.reduceByKey(_+_)
	
	// 将数据聚合结果采集到内存中
	val word2Count: Array[(String, Int)] = word2CountRDD.collect()
	
	// 打印结果
	word2Count.foreach(println)
	
	//关闭Spark连接
	sc.stop()

log4j.propertier

	log4j.rootCategory=ERROR, console
	log4j.appender.console=org.apache.log4j.ConsoleAppender
	log4j.appender.console.target=System.err
	log4j.appender.console.layout=org.apache.log4j.PatternLayout
	log4j.appender.console.layout.ConversionPattern=%d{yy/MM/dd HH:mm:ss} %p %c{1}: %m%n
	
	# Set the default spark-shell log level to ERROR. When running the spark-shell, the
	# log level for this class is used to overwrite the root logger's log level, so that
	# the user can have different defaults for the shell and regular Spark apps.
	log4j.logger.org.apache.spark.repl.Main=ERROR
	
	# Settings to quiet third party logs that are too verbose
	log4j.logger.org.spark_project.jetty=ERROR
	log4j.logger.org.spark_project.jetty.util.component.AbstractLifeCycle=ERROR
	log4j.logger.org.apache.spark.repl.SparkIMain$exprTyper=ERROR
	log4j.logger.org.apache.spark.repl.SparkILoop$SparkILoopInterpreter=ERROR
	log4j.logger.org.apache.parquet=ERROR
	log4j.logger.parquet=ERROR
	
	# SPARK-9183: Settings to avoid annoying messages when looking up nonexistent UDFs in SparkSQL with Hive support
	log4j.logger.org.apache.hadoop.hive.metastore.RetryingHMSHandler=FATAL
	log4j.logger.org.apache.hadoop.hive.ql.exec.FunctionRegistry=ERROR

异常处理
　　如果本机操作系统是Windows，在程序中使用了Hadoop相关的东西，比如写入文件到HDFS，则会遇到如下异常：
在这里插入图片描述
　　出现这个问题的原因，并不是程序的错误，而是windows系统用到了hadoop相关的服务，解决办法是通过配置关联到windows的系统依赖就可以了

　　在IDEA中配置Run Configuration，添加HADOOP_HOME变量

Spark运行环境

Local模式

所谓的Local模式，就是不需要其他任何节点资源就可以在本地执行Spark代码的环境，一般用于教学，调试，演示等。
解压缩文件

将spark-2.4.5-bin-without-hadoop-scala-2.12.tgz文件上传到Linux并解压缩，放置在指定位置，路径中不要包含中文或空格。
链接：https://pan.baidu.com/s/1mlc2PGzZU5qOW7pPogw1mw 提取码：xuaz
```
cd /opt/software
tar -zxvf spark-2.4.5-bin-without-hadoop-scala-2.12.tgz -C /opt/module
cd /opt/module 
mv spark-2.4.5-bin-without-hadoop-scala-2.12 spark-local
```
spark2.4.5默认不支持Hadoop3，可以采用多种不同的方式关联Hadoop3
方式一 : 修改spark-local/conf/spark-env.sh文件，增加如下内容
此操作, 在使用spark前需要先启动hadoop
```
SPARK_DIST_CLASSPATH=$(/opt/module/hadoop3/bin/hadoop classpath)
```
方式二 : 除了修改配置文件外，也可以直接引入对应的Jar包
链接：https://pan.baidu.com/s/1wuwzxB6-sP81mPAfmjU17A 提取码：b36j
将所有jar包拷贝到 → /opt/module/spark-local/jars目录
启动Local环境

	cd /opt/module/spark-local
	bin/spark-shell --master local[*]

在这里插入图片描述
启动后, 可以通过Web UI监控页面访问
http://虚拟机地址:4040

命令行工具
　　在解压缩文件夹下的data目录中，添加word.txt文件。在命令行工具中执行如下代码指令（和IDEA中代码简化版一致）

	sc.textFile("data/word.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect

在这里插入图片描述
退出本地模式
　　Ctrl + c 或 Scala 指令 [ :quit ]
提交应用

	bin/spark-submit \
	--class org.apache.spark.examples.SparkPi \
	--master local[2] \
	./examples/jars/spark-examples_2.12-2.4.5.jar \
	10

–class表示要执行程序的主类
–master local[2] 部署模式，默认为本地模式，数字表示分配的虚拟CPU核数量
spark-examples_2.12-2.4.5.jar 运行的应用类所在的jar包
数字10表示程序的入口参数，用于设定当前应用的任务数量

Standalone模式

local本地模式毕竟只是用来进行练习演示的，真实工作中还是要将应用提交到对应的集群中去执行。独立部署（Standalone）模式是一种只使用Spark自身节点运行的集群模式。Spark的Standalone模式体现了经典的master-slave模式。
　　集群规划 :
在这里插入图片描述
解压缩文件

将spark-2.4.5-bin-without-hadoop-scala-2.12.tgz文件上传到Linux并解压缩在指定位置
链接：https://pan.baidu.com/s/1mlc2PGzZU5qOW7pPogw1mw 提取码：xuaz

	cd /opt/software
	tar -zxvf spark-2.4.5-bin-without-hadoop-scala-2.12.tgz -C /opt/module
	cd /opt/module 
	mv spark-2.4.5-bin-without-hadoop-scala-2.12 spark-standalone

spark2.4.5默认不支持Hadoop3，可以采用多种不同的方式关联Hadoop3
方式一 : 修改spark-standalone/conf/spark-env.sh文件，增加如下内容
此操作, 在使用spark前需要先启动hadoop
```
SPARK_DIST_CLASSPATH=$(/opt/module/hadoop3/bin/hadoop classpath)
```
方式二 : 除了修改配置文件外，也可以直接引入对应的Jar包
链接：https://pan.baidu.com/s/1wuwzxB6-sP81mPAfmjU17A 提取码：b36j
将所有jar包拷贝到 → /opt/module/spark-standalone/jars目录
修改配置文件
进入解压缩后路径的conf目录，修改slaves.template文件名为slaves

	mv slaves.template slaves

修改slaves文件，添加work节点

	linux1
	linux2
	linux3

修改spark-env.sh.template文件名为spark-env.sh

	mv spark-env.sh.template spark-env.sh

修改spark-env.sh文件，添加JAVA_HOME环境变量和集群对应的master节点

	export JAVA_HOME=/opt/module/jdk1.8.0_144
	SPARK_MASTER_HOST=linux1
	SPARK_MASTER_PORT=7077

	xsync spark-standalone

启动集群
8. 启动集群

	cd /opt/module/spark-standalone
	sbin/start-all.sh

查看三台服务器运行进程

	myjps

在这里插入图片描述

查看Master资源监控Web UI界面

	http://服务器地址:8080

在这里插入图片描述
提交应用

	bin/spark-submit \
	--class org.apache.spark.examples.SparkPi \
	--master spark://linux1:7077 \
	./examples/jars/spark-examples_2.12-2.4.5.jar \
	10

–class表示要执行程序的主类
–master spark://linux1:7077 独立部署模式，连接到Spark集群
spark-examples_2.12-2.4.5.jar 运行类所在的jar包
数字10表示程序的入口参数，用于设定当前应用的任务数量

执行任务时, 会产生多个Java进程

执行任务时, 默认采用服务器集群节点的总核数, 每个节点内存1024M。

提交参数说明
在提交应用中，一般会同时一些提交参数

配置历史服务
　　由于spark-shell停止掉后，集群监控linux1:4040页面就看不到历史任务的运行情况，所以开发时都配置历史服务器记录任务运行情况。

修改spark-defaults.conf.template文件名为spark-defaults.conf

	mv spark-defaults.conf.template spark-defaults.conf

修改spark-default.conf文件，配置日志存储路径
注意：需要启动hadoop集群，HDFS上的directory目录需要提前存在。

	hadoop fs -mkdir /directory

sbin/start-dfs.sh

	spark.eventLog.enabled          true
	spark.eventLog.dir               hdfs://linux1:9820/directory

修改spark-env.sh文件, 添加日志配置

	export SPARK_HISTORY_OPTS="
	-Dspark.history.ui.port=18080 
	-Dspark.history.fs.logDirectory=hdfs://linux1:9820/directory 
	-Dspark.history.retainedApplications=30"

参数1含义：WEBUI访问的端口号为18080
参数2含义：指定历史服务器日志存储路径
参数3含义：指定保存Application历史记录的个数，如果超过这个值，旧的应用程序信息将被删除，这个是内存中的应用数，而不是页面上显示的应用数。

分发配置文件

	xsync conf

重新启动集群和历史服务

	sbin/start-all.sh
	sbin/start-history-server.sh

重新执行任务

	bin/spark-submit \
	--class org.apache.spark.examples.SparkPi \
	--master spark://linux1:7077 \
	./examples/jars/spark-examples_2.12-2.4.5.jar \
	10

在这里插入图片描述
16. 查看历史服务：http://linux1:18080

配置高可用(HA)
　　所谓的高可用是因为当前集群中的Master节点只有一个，所以会存在单点故障问题。所以为了解决单点故障问题，需要在集群中配置多个Master节点，一旦处于活动状态的Master发生故障时，由备用Master提供服务，保证作业可以继续执行。这里的高可用一般采用Zookeeper设置。
　　集群规划 :
在这里插入图片描述
17. 停止集群

	sbin/stop-all.sh

启动Zookeeper

	xstart zk

修改spark-env.sh文件添加如下配置
注释如下内容：

	#SPARK_MASTER_HOST=linux1
	#SPARK_MASTER_PORT=7077
	SPARK_MASTER_WEBUI_PORT=8989

添加如下内容:

	export SPARK_DAEMON_JAVA_OPTS="
	-Dspark.deploy.recoveryMode=ZOOKEEPER 
	-Dspark.deploy.zookeeper.url=linux1,linux2,linux3 
	-Dspark.deploy.zookeeper.dir=/spark"

分发配置文件

	xsync conf/

启动集群

	sbin/start-all.sh

在这里插入图片描述
22. 启动linux2的单独Master节点，此时linux2节点Master状态处于备用状态

	[root@linux2 spark-standalone]# sbin/start-master.sh

在这里插入图片描述

提交应用到高可用集群

	bin/spark-submit \
	--class org.apache.spark.examples.SparkPi \
	--master spark://LIFE:7077,LIVE:7077 \
	--deploy-mode cluster \
	./examples/jars/spark-examples_2.12-2.4.5.jar \
	10

停止linux1的Master资源监控进程
查看linux2的Master 资源监控Web UI，稍等一段时间后，linux2节点的Master状态提升为活动状态

Yarn模式

独立部署（Standalone）模式由Spark自身提供计算资源，无需其他框架提供资源。这种方式降低了和其他第三方资源框架的耦合性，独立性非常强。但是Spark主要是计算框架，而不是资源调度框架，所以本身提供的资源调度并不是它的强项，所以还是和其他专业的资源调度框架(Yarn)集成会更靠谱一些。
解压缩文件

将spark-2.4.5-bin-without-hadoop-scala-2.12.tgz文件上传到Linux并解压缩，放置在指定位置，路径中不要包含中文或空格。
链接：https://pan.baidu.com/s/1mlc2PGzZU5qOW7pPogw1mw 提取码：xuaz
```
cd /opt/software
tar -zxvf spark-2.4.5-bin-without-hadoop-scala-2.12.tgz -C /opt/module
cd /opt/module 
mv spark-2.4.5-bin-without-hadoop-scala-2.12 spark-yarn
```
spark2.4.5默认不支持Hadoop3，可以采用多种不同的方式关联Hadoop3
方式一 : 修改spark-local/conf/spark-env.sh文件，增加如下内容
此操作, 在使用spark前需要先启动hadoop
```
SPARK_DIST_CLASSPATH=$(/opt/module/hadoop3/bin/hadoop classpath)
```
方式二 : 除了修改配置文件外，也可以直接引入对应的Jar包
链接：https://pan.baidu.com/s/1wuwzxB6-sP81mPAfmjU17A 提取码：b36j
将所有jar包拷贝到 → /opt/module/spark-yarn/jars目录
修改配置文件
修改hadoop配置文件/opt/module/hadoop/etc/hadoop/yarn-site.xml, 并分发

	<!--是否启动一个线程检查每个任务正使用的物理内存量，如果任务超出分配值，则直接将其杀掉，默认是true -->
	<property>
	     <name>yarn.nodemanager.pmem-check-enabled</name>
	     <value>false</value>
	</property>
	
	<!--是否启动一个线程检查每个任务正使用的虚拟内存量，如果任务超出分配值，则直接将其杀掉，默认是true -->
	<property>
	     <name>yarn.nodemanager.vmem-check-enabled</name>
	     <value>false</value>
	</property>

分发配置文件

修改conf/spark-env.sh，添加JAVA_HOME和YARN_CONF_DIR配置

	mv spark-env.sh.template spark-env.sh

	export JAVA_HOME=/opt/module/jdk1.8.0_144
	YARN_CONF_DIR=/opt/module/hadoop/etc/hadoop

启动HDFS及Yarn集群
提交应用

	bin/spark-submit \
	--class org.apache.spark.examples.SparkPi \
	--master yarn \
	./examples/jars/spark-examples_2.12-2.4.5.jar \
	10

在这里插入图片描述
查看http://linux2:8088页面，点击History，查看历史页面

配置历史服务器

修改spark-defaults.conf.template文件名为spark-defaults.conf

	mv spark-defaults.conf.template spark-defaults.conf

修改spark-default.conf文件，配置日志存储路径
注意：需要启动hadoop集群，HDFS上的目录需要提前存在。

	[root@linux1 hadoop]# sbin/start-dfs.sh
	[root@linux1 hadoop]# hadoop fs -mkdir /directory

	spark.eventLog.enabled          true
	spark.eventLog.dir               hdfs://linux1:8020/directory

修改spark-env.sh文件, 添加日志配置

	export SPARK_HISTORY_OPTS="
	-Dspark.history.ui.port=18080 
	-Dspark.history.fs.logDirectory=hdfs://linux1:8020/directory 
	-Dspark.history.retainedApplications=30"

参数1含义：WEB UI访问的端口号为18080
参数2含义：指定历史服务器日志存储路径
参数3含义：指定保存Application历史记录的个数，如果超过这个值，旧的应用程序信息将被删除，这个是内存中的应用数，而不是页面上显示的应用数。

修改spark-defaults.conf

	spark.yarn.historyServer.address=linux1:18080
	spark.history.ui.port=18080

启动历史服务

	sbin/start-history-server.sh

重新提交应用

	bin/spark-submit \
	--class org.apache.spark.examples.SparkPi \
	--master yarn \
	./examples/jars/spark-examples_2.12-2.4.5.jar \
	10

在这里插入图片描述

Web页面查看日志：http://linux2:8088

K8S & Mesos模式

Mesos是Apache下的开源分布式资源管理框架，它被称为是分布式系统的内核,在Twitter得到广泛使用,管理着Twitter超过30,0000台服务器上的应用部署，但是在国内，依然使用着传统的Hadoop大数据框架，所以国内使用Mesos框架的并不多，但是原理其实都差不多。
　　在这里插入图片描述
　　容器化部署是目前业界很流行的一项技术，基于Docker镜像运行能够让用户更加方便地对应用进行管理和运维。容器管理工具中最为流行的就是Kubernetes（k8s），而Spark也在最近的版本中支持了k8s部署模式。此处不提供详解。想继续了解的小伙伴点击传送门：https://spark.apache.org/docs/latest/running-on-kubernetes.html
在这里插入图片描述

Windows模式

在学习时，每次都需要启动虚拟机，启动集群，这是一个比较繁琐的过程，并且会占大量的系统资源，导致系统执行变慢，不仅仅影响学习效果，也影响学习进度，Spark提供了可以在windows系统下启动本地集群的方式，这样，在不使用虚拟机的情况下，也能学习Spark的基本使用。
解压缩文件
　　将文件spark-2.4.5-bin-without-hadoop-scala-2.12.tgz解压缩到无中文无空格的路径中，将hadoop3依赖jar包拷贝到jars目录中。
启动本地环境

执行解压缩文件路径下bin目录中的spark-shell.cmd文件，启动Spark本地环境
在bin目录中创建input目录，并添加word.txt文件, 在命令行中输入脚本代码

	sc.textFile("input/word.txt").flatMap(_.split(",")).map((_,1)).reduceByKey(_+_).collect

在这里插入图片描述
命令行提交应用

	spark-submit --class org.apache.spark.examples.SparkPi --master local[2] ../examples/jars/spark-examples_2.12-2.4.5.jar 10

在这里插入图片描述

小结

部署模式对比
在这里插入图片描述
端口号

Spark查看当前Spark-shell运行任务情况端口号：4040（计算）
Spark Master内部通信服务端口号：7077
Standalone模式下，Spark Master Web端口号：8080（资源）
Spark历史服务器端口号：18080
Hadoop YARN任务运行情况查看端口号：8088