Spark运行环境搭建

Chen Mon

已于 2022-06-20 10:46:45 修改

阅读量2.5k

点赞数

文章标签： spark big data hadoop

于 2022-06-07 23:26:46 首次发布

本文链接：https://blog.csdn.net/weixin_52112640/article/details/125174950

版权

文章目录

一、Spark运行环境

一、Spark运行环境

1、local环境

不需要其他任何节点资源就可以在本地执行 Spark 代码的环境

（1）解压缩文件

将spark-2.1.1-bin-hadoop2.7.tgz 文件上传到Linux解压到指定位置。

[atguigu@master software]$ tar -zxvf spark-2.1.1-bin-hadoop2.7.tgz -C /opt/module/
[atguigu@master software]$ cd /opt/module/
[atguigu@master module]$ mv spark-2.1.1-bin-hadoop2.7 spark

（2）启动Local环境

进入解压缩后的路径，执行一下命令

[atguigu@master module]$ cd spark/
[atguigu@master bin]$ cd bin
[atguigu@master bin]$ ./spark-shell

在这里插入图片描述

启动成功后，可以输入网址进行WebUI监控页面访问

-退出本地模式

:quit

在这里插入图片描述

（3）编写集群所有进程查看脚本

在家目录下的bin里创建脚本xcall.sh(这里我用的

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Chen Mon

关注关注

0
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
Spark运行环境搭建

（2）启动Local环境进入解压缩后的路径，执行一下命令
复制链接

扫一扫

Spark环境搭建

getsgock的博客

01-31

368

前言因为公司项目有用到,整理了一下,特此记录 .网上教程几乎都是全家桶,上来就是安装Scala,Spark,Hadoop.不清楚为什么要安装,自己是否需要安装.又因为安装环境是学习的第一步,所以基本处于懵逼状态! Scala,Spark,Hadoop介绍什么是spark? Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP ...

Spark-3.2.4 高可用集群安装部署详细图文教程

Stars.Sky 的博客

09-15

4900

Spark-3.2.4 高可用集群安装部署详细图文教程

参与评论您还未登录，请先登录后发表或查看评论

Spark环境搭建和使用方法

Morse_Chen的博客

12-14

3428

本文讲解如何在Linux系统中安装Spark并配置Spark环境，以及Spark的基本使用方法。

详解 Spark 各种运行环境的搭建

最新发布

weixin_44480009的博客

05-29

1075

Mesos 是 Apache 下的开源分布式资源管理框架Kubernetes（k8s）是目前最为流行的容器管理工具Windows 模式：将解压缩到无中文无空格的路径中执行解压缩文件路径下bin目录中的文件，启动 Spark 本地环境编写 Scala 程序执行或在 DOS 命令行窗口中执行提交指令。

大数据技术——spark集群搭建

qq_53142796的博客

04-13

5015

Spark是一个开源的大数据处理框架，它可以在分布式计算集群上进行高效的数据处理和分析。Spark的特点是速度快、易用性高、支持多种编程语言和数据源。Spark的核心是基于内存的计算模型，可以在内存中快速地处理大规模数据。Spark支持多种数据处理方式，包括批处理、流处理、机器学习和图计算等。Spark的生态系统非常丰富，包括Spark SQL、Spark Streaming、MLlitGraphX等组件，可以满足不同场景下的数据处理需求。

Spark集群搭建超详细教程

笑看风云路的博客

05-19

1万+

前言在上一篇文章《Hadoop集群搭建配置教程》中详细介绍了Hadoop集群搭建的全部过程，今天为大家带来分布式计算引擎Spark集群搭建，还是使用三个虚拟机节点上进行安装部署，围绕Standalone模式和Yarn模式的这两种部署模式进行展开。集群搭建具体步骤注意：以下步骤均在hadoop1节点上进行操作，特殊说明除外！ Standalone模式 1、下载spark-3.0.0的jar包下载地址： https://archive.apache.org/dist/spark/spark-3.0.

Spark集群安装部署

MJK祺的博客

05-18

1778

由于Spark仅仅是一种计算机框架，不负责数据的存储和管理，因此，通常都会将Spark和Hadoop进行统一部署，由Hadoop中的HDFS，HBase等组件负责数据的存储管理，Spark负责数据计算。本文章主要阐述在Standalone模式下，Spark集群的安装和配置。Yarn模式不需要启动spark集群，只需要启动hadoop集群即可，在启动hadoop集群之前，需要在yarn-site.xml文件关闭内存检查，否则在测试官方案例时可能会报错。至此，Spark集群配置就完成了。

Spark集群搭建的三种方式详解

不积跬步，无以至千里

02-26

2477

Local 模式：在本地模式下，Spark 将作为一个单独的 Java 进程在本地运行，不需要启动额外的集群资源。本地模式适用于开发和调试，可以快速运行 Spark 应用程序并查看结果，而不需要配置和管理集群资源。Standalone 模式： Standalone 模式是 Spark 提供的最简单的部署方式，也是默认的部署模式。在 Standalone 模式下，Spark 自身作为一个独立的集群运行，可以通过启动 Spark Master 和 Spark Worker 进程来启动一个完整的 Spark 集

Spark 集群搭建（完整）

weixin_45131680的博客

09-12

3079

如果要在 Yarn 中运行 Spark 程序, 首先会和 RM 交互, 开启 ApplicationMaster, 其中运行了 Driver, Driver创建基础环境后, 会由 RM 提供对应的容器, 运行 Executor, Executor会反向向 Driver 反向注册自己, 并申请 Tasks 执行。对于 Spark Standalone 集群来说, 当 Worker 调度出现问题的时候, 会自动的弹性容错, 将出错的 Task 调度到其它 Worker 执行。

spark环境搭建

01-22

Spark 环境搭建 Spark 环境搭建是指在本地机器上安装和配置 Spark 相关组件，以便进行 Spark 的学习和开发。本文将指导读者从头开始搭建 Spark 环境，包括 JDK 安装、Spark 下载、Scala 安装、Hadoop 安装和 Spark ...

Spark开发环境搭建

06-15

Spark开发环境搭建 Spark 是一个基于内存的分布式计算框架，由 Apache 开发，是一个开源的数据处理引擎。为了使用 Spark，需要搭建 Spark 开发环境，这篇文章将指导您如何安装 Spark、配置环境变量、使用 Local ...

Apache Spark开发环境搭建

11-22

Apache Spark开发环境搭建

Spark源码阅读环境搭建详解

11-09

本文档详细介绍了搭建SPARK源码阅读环境的步骤及方法。SPARK源码的阅读有助于了解SPARK运行的内部机制，便于优化，对有志于大数据学习及科研的人员都是很重要的。

Linux下搭建Spark 的 Python 编程环境的方法

09-15

在Linux系统中搭建Spark的Python编程环境，首先要确保系统中已经安装了Java 8或更高版本，因为Spark运行依赖Java环境。接下来，你需要从Spark的官方网站下载最新版本的Spark（例如2.4.2），并将下载的tar.gz文件解压...

Spark环境搭建（保姆级教程）

热门推荐

tangyi2008的专栏

02-24

5万+

Spark 是一个大规模数据处理的统一分析引擎本文主要介绍Spark的相关配置，以及各种模式的代码提交，包括Local,Standalone,YARN。文末有相应资源下载网盘链接。

spark的安装与部署

weixin_65195823的博客

06-28

1万+

为了避免MapReduce框架中多次读写磁盘带来的消耗，以及更充分地利用内存，加州大学伯克利分校的AMP Lab提出了一种新的、开源的、类Hadoop MapReduce的内存编程模型Spark。一、spark是什么？Spark是一个基于内存的大数据并行处理框架，其最初由加州大学伯克利分校的AMP Lab研发，现已成为Apache软件基金会的顶级项目之一。Spark不仅提供了可扩展、高容错、高性能的分布式数据处理，还提供了内存级的数据处理。

spark集群配置

m0_37658639的博客

03-21

4862

1.集群部署规划表1-1集群部署规划主机名 master slave1 slave2 HDFS NameNode SecondaryNameNode DataNode DataNode YARN NodeManage ResourceManager NodeManager Spark Master Worker Worker 2.安装Spark ...

spark集群环境搭建

04-09

Spark集群环境搭建是为了支持分布式计算和大规模数据处理的需求。下面是一般的Spark集群环境搭建步骤： 1. 安装Java：Spark是基于Java开发的，以首先需要安装Java环境。 2. 安装Hadoop：Spark可以与Hadoop集成，使用Hadoop的分布式文件系统（HDFS）作为数据存储。因此，在搭建Spark集群之前，需要先搭建好Hadoop集群。 3. 下载Spark：从Spark官方网站下载最新版本的Spark压缩包，并解压到每个节点的相同目录下。 4. 配置Spark环境变量：在每个节点上设置SPARK_HOME和PATH环境变量，指向Spark的安装目录。 5. 配置Spark集群：在Spark的安装目录下，有一个conf目录，其中包含了一些配置文件。主要需要修改的是spark-env.sh和slaves文件。 - spark-env.sh：设置一些环境变量，如JAVA_HOME、HADOOP_CONF_DIR等。 - slaves：列出所有的工作节点（即集群中的机器），每行一个节点的主机名或IP地址。 6. 启动Spark集群：在主节点上执行启动命令，可以使用start-all.sh脚本来启动Master和Worker节点。 7. 验证集群：可以通过访问Spark的Web界面（通常是http://<master-node>:8080）来验证集群是否正常运行。 8. 提交任务：使用spark-submit命令提交Spark应用程序到集群上运行。以上是一般的Spark集群环境搭建步骤，具体的配置和操作可能会因环境和需求而有所不同。