基于Hadoop安装spark集群

最新推荐文章于 2024-07-13 09:47:47 发布

原创最新推荐文章于 2024-07-13 09:47:47 发布 · 2.8k 阅读

17 ·

CC 4.0 BY-SA版权

文章标签：

#大数据

大数据专栏收录该内容

18 篇文章

订阅专栏

本文档详细介绍了如何在已有Hadoop HA环境下搭建Spark集群，包括下载和安装Scala、Spark，配置环境变量，修改配置文件，分发到其他节点，以及启动和验证Spark集群的过程。通过配置`spark-env.sh`和`slaves`文件，设置了Spark相关参数，并通过`start-all.sh`启动集群。最后，通过`jps`命令和Web UI确认Spark集群运行正常。

基于Hadoop的spark环境搭建

已有环境情况

Hadoop HA

Java

软件版本

Hadoop 2.7.2

Java 1.8.0_301

Scala 2.11.8

Spark 2.1.0

下载地址

Scala下载地址：Index of /dist/spark

Spark下载地址：Index of /dist/spark

安装

下载好的安装包，进行解压

解压命令如下：tar -zxvf 压缩包 -C 解压所至的目录

tar -zxvf scala-2.11.8.tgz -C /usr/local

tar -zxvf spark-2.1.0-bin-without-hadoop.tgz -C /usr/local

重命名

cd /usr/local进入到刚刚解压到的目录

mv scala-2.11.8/ scala

mv spark-2.1.0-bin-without-hadoop spark

配置环境变量

vim ~/.bashrc

将scala和spark添加至环境变量，如下

添加完成后需要source生效

检查scala配置完成，使用以下命令查看其版本号

scala -version

配置spark相关配置文件

复制模板文件

cd /usr/local/spark/conf

将原有的模板文件复制一份并重命名

cp spark-env.sh.template spark-env.sh

cp slaves.template slave

修改spark-env.sh设置相关配置

增加以下内容

spark-env.sh增加内容如下

export SCALA_HOME=/usr/local/scala
export JAVA_HOME=/home/ghh/java
export SPARK_HOME=/usr/local/spark
export SPARK_MASTER_IP=192.168.226.101
export SPARK_MASTER_PORT=7077
export SPARK_MASTER_WEBUI_PORT=8080     #spark的web访问端口默认是8080，防止可能存在端口冲突，可以修改端口号为其他的
export SPARK_WORKER_CORES=1
export SPARK_WORKER_INSTANCES=1
export SPARK_EXECUTOR_MEMORY=512M
export SPARK_WORKER_MEMORY=1G
export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)
export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop

以上配置的路径需要根据自己的实际安装情况来更改

配置slaves文件

将三台集群主机名添加进去（已与IP地址进行映射过）