spark配置

原创已于 2024-03-09 20:31:17 修改 · 251 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#spark #hadoop #大数据

于 2023-05-08 23:16:40 首次发布

hadoop 专栏收录该内容

16 篇文章

订阅专栏

文章详细介绍了Spark2.1.1的安装步骤，包括解压安装包、修改环境变量、配置相关文件如spark-env.sh和spark-defaults.conf，以及启动和停止Spark服务。此外，还提到了在多服务器环境中的分发和历史服务器的设置。

spark 的配置

上传安装包文件

spark-2.1.1-bin-hadoop2.7

解压安装包

tar xvf spark-2.1.1-bin-hadoop2.7 -C /opt/module/

修改环境变量

export JAVA_HOME=/opt/module/jdk
export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=.$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export HADOOP_HOME=/opt/module/hadoop-2.7.7
export SPARK_HOME=/opt/module/spark-2.1.1-bin-hadoop2.7
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

vi /root/.bashrc

export JAVA_HOME=/opt/module/jdk1.8.0_202
export PATH=$JAVA_HOME/bin:$PATH

配置文件

cd $SPARK_HOME/conf

# 改名, 去掉后面的.template后缀
mv slavess.template slaves

# 编辑worker文件
vim slaves
# 将里面的localhost删除, 追加
master
slave1
slave2
# 功能: 这个文件就是指示了  当前SparkStandAlone环境下, 有哪些worker

配置spark-env.sh文件

export JAVA_HOME=/opt/module/jdk1.8.0_202
export SPARK_DIST_CLASSPATH=$(/opt/module/hadoop-2.7.7/bin/hadoop classpath)
## HADOOP软件配置文件目录，读取HDFS上文件和运行YARN集群
HADOOP_CONF_DIR=/opt/module/hadoop-2.7.7/etc/hadoop
YARN_CONF_DIR=/opt/module/hadoop-2.7.7/etc/hadoop
## 指定spark老大Master的IP和提交任务的通信端口
# 告知Spark的master运行在哪个机器上
export SPARK_MASTER_HOST=master
# 告知sparkmaster的通讯端口
export SPARK_MASTER_PORT=7077
# 告知spark master的webui端口
SPARK_MASTER_WEBUI_PORT=8080
# worker cpu可用核数
SPARK_WORKER_CORES=1
# worker可用内存
SPARK_WORKER_MEMORY=1g
# worker的工作通讯地址
SPARK_WORKER_PORT=7078
# worker的webui地址
SPARK_WORKER_WEBUI_PORT=8081
## 设置历史服务器
# 配置的意思是  将spark程序运行的历史日志 存到hdfs的/sparklog文件夹中
SPARK_HISTORY_OPTS="-Dspark.history.fs.logDirectory=hdfs://master:9000/sparklog/ -Dspark.history.fs.cleaner.enabled=true"

在HDFS上创建程序运行历史记录存放的文件夹:（没有不创建的话会报错）

hadoop fs -mkdir /sparklog
hadoop fs -chmod 777 /sparklog

配置spark-defaults.conf文件

# 改名
mv spark-defaults.conf.template spark-defaults.conf
# 开启spark的日期记录功能
spark.eventLog.enabled  true
# 设置spark日志记录的路径
spark.eventLog.dir   hdfs://master:9000/sparklog/
# 设置spark日志是否启动压缩
spark.eventLog.compress  true

配置log4j.properties 文件 [可选配置]

之所以改这个文件时因为spark是一个话痨这样可以修改他的输出日志减少日志的输出

# 1. 改名
mv log4j.properties.template log4j.properties

# 将第19行的INFO 改为WARN

将Spark安装文件夹分发到其它的服务器上

scp -r /opt/module/spark-2.1.1-bin-hadoop2.7 slave1:/opt/module/
scp -r /opt/module/spark-2.1.1-bin-hadoop2.7 slave2:/opt/module/

检查每台机器的环境变量

启动历史服务器

sbin/start-history-server.sh

启动spark

sbin/start-all.sh

停止服务命令

sbin/stop-all.sh

使用 jps查看进程存在下图红框的进程及启动成功
在这里插入图片描述

应用的安装可能会因为环境的不同而导致运行和安装时出现错误和异常
本文章为本人学习笔记，如有请侵权联系，本人会立即删除侵权文章。
愿君前程似锦，未来可期去💯,感谢您的阅读，如果对您有用希望您留下宝贵的点赞和收藏