GZ033 大数据应用开发赛题第01套--子任务二:Spark on Yarn安装配置

子任务二:Spark on Yarn安装配置

本任务需要使用root用户完成相关配置,已安装Hadoop及需要配置前置环境,具体要求如下:

初始化hadoop集群
使用命令查看自己所有节点环境的IP信息:
ip addr show
把所有节点的IP记录下来,将三个节点分别命名为master、slave1、slave2,取1个IP作为master节点,其余做slave节点。
修改容器中/etc/hosts文件,根据自己的节点的IP信息,在文件末添加类似下面的内容:
10.12.241.106  master
10.42.241.46  slave1
10.42.74.171  slave2
配置及节点ssh免密登录
在master节点使用命令生成key,需要填入的内容直接留空即可
ssh-keygen -b 4096
使用下面的命令把master节点的公钥拷贝到包括master节点的所有的节点,默认密码为root
ssh-copy-id -i ~/.ssh/id_rsa.pub root@master
ssh-copy-id -i ~/.ssh/id_rsa.pub root@slave1
ssh-copy-id -i ~/.ssh/id_rsa.pub root@slave2
最后,在master节点的终端使用下面的命令初始化Hadoop环境namenode

hdfs namenode -format

确保Hadoop启动并正常运行。

# hadoop的集群启动命令为:
start-all.sh

# 启动后检查是否安装成功:
hdfs dfsadmin -report

从宿主机/opt目录下将文件spark-3.1.1-bin-hadoop3.2.tgz复制到容器Master中的/opt/software(若路径不存在,则需新建)中,将Spark包解压到/opt/module路径中(若路径不存在,则需新建),将完整解压命令复制粘贴至客户端桌面【Release\任务A提交结果.docx】中对应的任务序号下;

在节点创建需要的文件夹,作为安装包储存路径和软件安装位置
mkdir /opt/software  /opt/module
从宿主机目录下将文件spark-3.2.3-bin-hadoop3.2.tgz复制到容器Master中的/opt/software中
# 通过内网http服务器下载
wget http://xx.xx.xx.xx:/spark/spark-3.2.3-bin-hadoop3.2.tgz -P /opt/software
将Spark包解压到/opt/module路径中

tar -xzf /opt/software/spark-3.2.3-bin-hadoop3.2.tgz -C /opt/module

 修改容器中/etc/profile文件,设置Spark环境变量并使环境变量生效,在/opt目录下运行命令spark-submit --version,将命令与结果截图粘贴至客户端桌面【Release\任务A提交结果.docx】中对应的任务序号下;

修改容器中/etc/profile文件,在文件末添加下面的内容:
# 添加spark的环境变量
export SPARK_HOME=/opt/module/spark-3.2.3-bin-hadoop3.2
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
执行下面的命令使添加的spark环境变量生效:

source /etc/profile

在终端运行命令

spark-submit --version

完成on yarn相关配置,使用spark on yarn 的模式提交$SPARK_HOME/examples/jars/spark-examples_2.12-3.1.1.jar 运行的主类为org.apache.spark.examples.SparkPi,将运行结果截图粘贴至客户端桌面【Release\任务A提交结果.docx】中对应的任务序号下(截取Pi结果的前后各5行)。

(运行命令为:spark-submit --master yarn --class org.apache.spark.examples.SparkPi  $SPARK_HOME/examples/jars/spark-examples_2.12-3.1.1.jar)

执行下面命令生成spark-env.sh文件

cd /opt/module/spark-3.2.3-bin-hadoop3.2/conf
cp -f ./spark-env.sh.template ./spark-env.sh
使用vim编辑器文件内容

vim ./spark-env.sh
在文件末尾添加下面的内容

export LD_LIBRARY_PATH=/opt/module/hadoop-3.2.4/lib/native
export HADOOP_CONF_DIR=/opt/module/hadoop-3.2.4/etc/hadoop/
export YARN_CONF_DIR=/opt/module/hadoop-3.2.4/etc/hadoop/

将 Spark 相关的 JAR 文件打包成一个 JAR 文件
cd 
jar cv0f spark-libs.jar -C $SPARK_HOME/jars/ .

将 JAR 文件上传到 HDFS 中的指定目录,以便在分布式 Spark 环境中使用。
记得确保Hadoop集群环境正常启动运行。
hdfs dfs -mkdir -p /system/SparkJars/jar
hdfs dfs -put spark-libs.jar /system/SparkJars/jar

执行下面命令生成spark-defaults.conf文件

cd /opt/module/spark-3.2.3-bin-hadoop3.2/conf
cp -f ./spark-defaults.conf.template ./spark-defaults.conf

使用vim编辑器文件内容

vim ./spark-defaults.conf

在文件末尾添加下面的内容

spark.yarn.archive=hdfs:///system/SparkJars/jar/spark-libs.jar
使用spark on yarn 的client模式提交$SPARK_HOME/examples/jars/spark-examples_2.12-3.1.1.jar,运行的主类为org.apache.spark.examples.SparkPi

spark-submit --master yarn --class org.apache.spark.examples.SparkPi  $SPARK_HOME/examples/jars/spark-examp

  • 5
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

weixin_44117248

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值