Spark的安装

解怡椿

已于 2024-09-18 11:59:39 修改

阅读量1.1k

点赞数 29

文章标签： spark

于 2024-09-17 22:40:46 首次发布

本文链接：https://blog.csdn.net/xieyichun_/article/details/142318812

版权

一、Spark

1、概述

Spark 是当今大数据领域最活跃、最热门、最高效的大数据通用计算平台之一。

Hadoop 之父 Doug Cutting 指出：Use of MapReduce engine for Big Data projects will decline, replaced by Apache Spark (大数据项目的 MapReduce 引擎的使用将下降，由 Apache Spark 取代)。

2、spark的特点

速度快：Spark 通过内存中的数据处理，实现了比 MapReduce 快达 100 倍的性能提升，即使在基于磁盘的运算中也能快 10 倍。其高效的 DAG 执行引擎使得数据流处理更为迅速。
易用性强：Spark 支持 Java、Python、R 和 Scala 多种语言的 API，并提供了超过 80 种高级算法，简化了应用开发过程。此外，它支持交互式的 Python 和 Scala shell，便于用户快速验证解决方案。
功能全面：Spark 是一个统一的数据处理框架，支持批处理、交互式查询（Spark SQL）、实时流处理（Spark Streaming）、机器学习（MLlib）和图计算（GraphX），能够在单一平台上无缝集成多种处理模式。
兼容性佳：Spark 能够与现有的 Hadoop 生态系统无缝融合，支持 Hadoop 的 YARN 和 Apache Mesos 作为资源调度器，并且可以直接处理 Hadoop 支持的各种数据存储，如 HDFS、HBase 和 Cassandra，使得已部署 Hadoop 的用户能够轻松利用 Spark 的强大功能而无需迁移数据。

二、安装spark

1、安装包

我这里使用的是spark3.1.2 安装包放到我的百度网盘上
链接：https://pan.baidu.com/s/1gUXQJN0-utqDBIhnOGb9jQ?pwd=1234
提取码：1234

2、解压

我是把安装包放到了 /opt/modules 下，解压之后的文件放到 /opt/installs 下

tar -zxvf spark-3.1.2-bin-hadoop3.2.tgz -C /opt/installs

重命名

先到installs下： cd /opt/indtalls

重命名： mv spark-3.1.2-bin-hadoop3.2.tgz spark

3、修改环境变量

vi /etc/profile

export SPARK_HOME=/opt/installs/spark
export PATH=$PATH:$SPARK_HOME/bin

让其起作用

source /etc/profile

4、安装scala

由于 Spark 本身就是用 Scala 编写的，因此选择 Scala 作为编程语言可以更好地与 Spark 内部代码集成，提高开发效率。

4.1安装包

上面的百度网盘里有

4.2解压

tar -zxvf scala-2.12.10.tgz -C /opt/installs

重命名

mv scala-2.12.10/ scala

4.3修改环境变量

export SCALA_HOME=/opt/installs/scala

export PATH=$PATH:$SCALA_HOME/bin

让其起作用：

source /etc/profile

三、修改配置文件

进入到spark下的conf目录下

cd /opt/installs/spark/conf

将这两个文件cp一下

cp spark-env.sh.template spark-env.sh

cp workers.template workers

1、修改spark-env.sh

vim spark-env.sh

根据配置修改

export SCALA_HOME=/opt/installs/scala # 设置 Scala 的安装目录。Scala 是 Spark 的主要编程语言，许多 Spark 的脚本和工具依赖 Scala 环境。
export JAVA_HOME=/opt/installs/jdk # 设置 Java 的安装目录。Spark 和 Hadoop 都是基于 JVM 的，因此需要 Java 环境。
export SPARK_HOME=/opt/installs/spark # 设置 Spark 的安装目录。
export HADOOP_INSTALL=/opt/installs/hadoop # 设置 Hadoop 的安装目录。
export HADOOP_CONF_DIR=$HADOOP_INSTALL/etc/hadoop #确保 Hadoop 在运行时能够找到其配置文件。
export SPARK_MASTER_IP=192.168.184.128 #确保 Spark 的 worker 节点能够正确连接到主节点。
export SPARK_DRIVER_MEMORY=2G #设置 Spark driver 程序的内存大小。确保 driver 程序有足够的内存来执行任务。
export SPARK_EXECUTOR_MEMORY=2G # 设置 Spark executor 进程的内存大小。确保 executor 进程有足够的内存来执行任务。
export SPARK_LOCAL_DIRS=/opt/installs/spark # 设置 Spark 用于存储临时文件的目录。确保 Spark 在执行任务时有足够的空间来存放临时文件。