Spark安装环境准备

wux_labs

已于 2022-12-13 11:32:42 修改

阅读量1.4k

点赞数 1

分类专栏： # Spark 文章标签： spark 大数据分布式

于 2022-12-09 11:41:24 首次发布

本文链接：https://blog.csdn.net/wux_labs/article/details/128249944

版权

Spark 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

Spark安装环境准备

操作系统准备
Java环境准备
Python环境准备
Spark安装包下载
Hadoop安装包下载

操作系统准备

Spark是运行在JVM上的，JVM是跨平台的，所以Spark可以跨平台运行在各种类型的操作系统上。但是在实际使用中，通常都将Spark安装部署在Linux服务器上，所以需要准备好用来安装Spark的Linux服务器，这里以Ubuntu20.04作为目标操作系统。

在本地模式下，需要1台服务器
在Standalone模式下，至少需要3台服务器
在Yarn模式下，至少需要3台服务器
在云环境模式下，不需要自己准备服务器，在创建集群的时候可以选择集群规模需要多少节点

在自己安装部署的环境中，无论是1台服务器还是多台服务器，都做统一的规划：操作系统用户统一使用hadoop、软件安装目录统一使用${HOME}/apps，所以需要在系统中创建hadoop用户并在hadoop用户的home目录下创建apps目录。
在这里插入图片描述

Java环境准备

由于Spark是由Scala语言编写，需要在JVM环境下运行，所以需要在安装Spark的服务器上安装并配置Java。根据集群的规划，需要给集群中的每一个节点都安装Java环境，并且需要安装Java8+以上的版本。在Ubuntu操作系统中，可以执行以下命令进行Java8的安装。

sudo apt-get update
sudo apt install -y openjdk-8-jdk

安装完成后可以执行java -version命令来检查安装结果及相关版本。
在这里插入图片描述

Python环境准备

Spark提供了对Python的支持，提供了PySpark包，这里以Python作为主要开发语言，所以在服务器环境中需要安装Python3。Linux服务器通常自带Python环境，自带的Python环境有可能是Python2，也有可能是Python3，如果自带的环境是Python2，那么需要重新安装Python3的环境，推荐使用Anaconda3进行安装。Anaconda的安装可参考官方文档https://docs.anaconda.com/anaconda/install/linux/。
安装完成以后，确保服务器上执行python3命令不会报错。
在这里插入图片描述

Spark安装包下载

在安装Spark之前，需要从其官方网站下载Spark的安装包。
在这里插入图片描述
可以直接点击下载链接将安装包下载到本地，然后将安装包上传到需要安装Spark的Linux服务器上进行安装。也可以复制下载链接，然后在需要安装Spark的Linux服务器上通过wget等命令进行安装包的下载。

wget https://dlcdn.apache.org/spark/spark-3.3.1/spark-3.3.1-bin-hadoop3.tgz

在这里插入图片描述

Hadoop安装包下载

数据文件通常存放于HDFS分布式文件系统，Spark On Yarn模式的部署依赖Yarn，这些都需要用到Hadoop集群，所以需要下载Hadoop安装包。通过Hadoop的官网下载Hadoop 3.3.x版本。
在这里插入图片描述
可以直接点击下载链接将安装包下载到本地，然后将安装包上传Linux服务器上进行安装。也可以复制下载链接，然后在Linux服务器上通过wget等命令进行安装包的下载。

wget https://dlcdn.apache.org/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz

在这里插入图片描述
至此，基础环境准备完成。

wux_labs

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
Spark安装环境准备

安装Spark集群之前，需要准备一些基础环境，包括Linux操作系统、Java环境、Python环境、Spark安装包、Hadoop安装包
复制链接

扫一扫

专栏目录

Spark安装环境准备

Spark安装环境准备

操作系统准备

Java环境准备

Python环境准备

Spark安装包下载

Hadoop安装包下载

“相关推荐”对你有帮助么？