spark 的配置
上传安装包文件
spark-2.1.1-bin-hadoop2.7
解压安装包
tar xvf spark-2.1.1-bin-hadoop2.7 -C /opt/module/
修改环境变量
export JAVA_HOME=/opt/module/jdk
export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=.$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export HADOOP_HOME=/opt/module/hadoop-2.7.7
export SPARK_HOME=/opt/module/spark-2.1.1-bin-hadoop2.7
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
vi /root/.bashrc
export JAVA_HOME=/opt/module/jdk1.8.0_202
export PATH=$JAVA_HOME/bin:$PATH
配置文件
cd $SPARK_HOME/conf
# 改名, 去掉后面的.template后缀
mv slavess.template slaves
# 编辑worker文件
vim slaves
# 将里面的localhost删除, 追加
master
slave1
slave2
# 功能: 这个文件就是指示了 当前SparkStandAlone环境下, 有哪些worker
配置spark-env.sh文件
export JAVA_HOME=/opt/module/jdk1.8.0_202
export SPARK_DIST_CLASSPATH=$(/opt/module/hadoop-2.7.7/bin/hadoop classpath)
## HADOOP软件配置文件目录,读取HDFS上文件和运行YARN集群
HADOOP_CONF_DIR=/opt/module/hadoop-2.7.7/etc/hadoop
YARN_CONF_DIR=/opt/module/hadoop-2.7.7/etc/hadoop
## 指定spark老大Master的IP和提交任务的通信端口
# 告知Spark的master运行在哪个机器上
export SPARK_MASTER_HOST=master
# 告知sparkmaster的通讯端口
export SPARK_MASTER_PORT=7077
# 告知spark master的webui端口
SPARK_MASTER_WEBUI_PORT=8080
# worker cpu可用核数
SPARK_WORKER_CORES=1
# worker可用内存
SPARK_WORKER_MEMORY=1g
# worker的工作通讯地址
SPARK_WORKER_PORT=7078
# worker的webui地址
SPARK_WORKER_WEBUI_PORT=8081
## 设置历史服务器
# 配置的意思是 将spark程序运行的历史日志 存到hdfs的/sparklog文件夹中
SPARK_HISTORY_OPTS="-Dspark.history.fs.logDirectory=hdfs://master:9000/sparklog/ -Dspark.history.fs.cleaner.enabled=true"
在HDFS上创建程序运行历史记录存放的文件夹:(没有不创建的话会报错)
hadoop fs -mkdir /sparklog
hadoop fs -chmod 777 /sparklog
配置spark-defaults.conf文件
# 改名
mv spark-defaults.conf.template spark-defaults.conf
# 开启spark的日期记录功能
spark.eventLog.enabled true
# 设置spark日志记录的路径
spark.eventLog.dir hdfs://master:9000/sparklog/
# 设置spark日志是否启动压缩
spark.eventLog.compress true
配置log4j.properties 文件 [可选配置]
之所以改这个文件时因为spark是一个话痨这样可以修改他的输出日志减少日志的输出
# 1. 改名
mv log4j.properties.template log4j.properties
# 将第19行的INFO 改为WARN
将Spark安装文件夹 分发到其它的服务器上
scp -r /opt/module/spark-2.1.1-bin-hadoop2.7 slave1:/opt/module/
scp -r /opt/module/spark-2.1.1-bin-hadoop2.7 slave2:/opt/module/
检查每台机器的环境变量
启动历史服务器
sbin/start-history-server.sh
启动spark
sbin/start-all.sh
停止服务命令
sbin/stop-all.sh
使用 jps
查看进程存在下图红框的进程及启动成功
应用的安装可能会因为环境的不同而导致运行和安装时出现错误和异常
本文章为本人学习笔记,如有请侵权联系,本人会立即删除侵权文章。
愿君前程似锦,未来可期去💯,感谢您的阅读,如果对您有用希望您留下宝贵的点赞和收藏