Spark安装环境准备

操作系统准备

Spark是运行在JVM上的,JVM是跨平台的,所以Spark可以跨平台运行在各种类型的操作系统上。但是在实际使用中,通常都将Spark安装部署在Linux服务器上,所以需要准备好用来安装Spark的Linux服务器,这里以Ubuntu20.04作为目标操作系统。

  • 在本地模式下,需要1台服务器
  • 在Standalone模式下,至少需要3台服务器
  • 在Yarn模式下,至少需要3台服务器
  • 在云环境模式下,不需要自己准备服务器,在创建集群的时候可以选择集群规模需要多少节点

在自己安装部署的环境中,无论是1台服务器还是多台服务器,都做统一的规划:操作系统用户统一使用hadoop、软件安装目录统一使用${HOME}/apps,所以需要在系统中创建hadoop用户并在hadoop用户的home目录下创建apps目录。
在这里插入图片描述

Java环境准备

由于Spark是由Scala语言编写,需要在JVM环境下运行,所以需要在安装Spark的服务器上安装并配置Java。根据集群的规划,需要给集群中的每一个节点都安装Java环境,并且需要安装Java8+以上的版本。在Ubuntu操作系统中,可以执行以下命令进行Java8的安装。

sudo apt-get update
sudo apt install -y openjdk-8-jdk

安装完成后可以执行java -version命令来检查安装结果及相关版本。
在这里插入图片描述

Python环境准备

Spark提供了对Python的支持,提供了PySpark包,这里以Python作为主要开发语言,所以在服务器环境中需要安装Python3。Linux服务器通常自带Python环境,自带的Python环境有可能是Python2,也有可能是Python3,如果自带的环境是Python2,那么需要重新安装Python3的环境,推荐使用Anaconda3进行安装。Anaconda的安装可参考官方文档https://docs.anaconda.com/anaconda/install/linux/
安装完成以后,确保服务器上执行python3命令不会报错。
在这里插入图片描述

Spark安装包下载

在安装Spark之前,需要从其官方网站下载Spark的安装包。
在这里插入图片描述
可以直接点击下载链接将安装包下载到本地,然后将安装包上传到需要安装Spark的Linux服务器上进行安装。也可以复制下载链接,然后在需要安装Spark的Linux服务器上通过wget等命令进行安装包的下载。

wget https://dlcdn.apache.org/spark/spark-3.3.1/spark-3.3.1-bin-hadoop3.tgz

在这里插入图片描述

Hadoop安装包下载

数据文件通常存放于HDFS分布式文件系统,Spark On Yarn模式的部署依赖Yarn,这些都需要用到Hadoop集群,所以需要下载Hadoop安装包。通过Hadoop的官网下载Hadoop 3.3.x版本。
在这里插入图片描述
可以直接点击下载链接将安装包下载到本地,然后将安装包上传Linux服务器上进行安装。也可以复制下载链接,然后在Linux服务器上通过wget等命令进行安装包的下载。

wget https://dlcdn.apache.org/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz

在这里插入图片描述
至此,基础环境准备完成。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

wux_labs

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值