Spark的安装

目录

一、Spark

1、概述

2、spark的特点

二、安装spark

1、安装包

2、解压

3、修改环境变量

4、安装scala

三、修改配置文件

 1、修改spark-env.sh

2、修改workers文件

四、使用spark

1、使用scala环境

2、使用python环境


一、Spark

1、概述

Spark 是当今大数据领域最活跃、最热门、最高效的大数据通用计算平台之一。

Hadoop 之父 Doug Cutting 指出:Use of MapReduce engine for Big Data projects will decline, replaced by Apache Spark (大数据项目的 MapReduce 引擎的使用将下降,由 Apache Spark 取代)。

2、spark的特点

速度快:Spark 通过内存中的数据处理,实现了比 MapReduce 快达 100 倍的性能提升,即使在基于磁盘的运算中也能快 10 倍。其高效的 DAG 执行引擎使得数据流处理更为迅速。
易用性强:Spark 支持 Java、Python、R 和 Scala 多种语言的 API,并提供了超过 80 种高级算法,简化了应用开发过程。此外,它支持交互式的 Python 和 Scala shell,便于用户快速验证解决方案。
功能全面:Spark 是一个统一的数据处理框架,支持批处理、交互式查询(Spark SQL)、实时流处理(Spark Streaming)、机器学习(MLlib)和图计算(GraphX),能够在单一平台上无缝集成多种处理模式。
兼容性佳:Spark 能够与现有的 Hadoop 生态系统无缝融合,支持 Hadoop 的 YARN 和 Apache Mesos 作为资源调度器,并且可以直接处理 Hadoop 支持的各种数据存储,如 HDFS、HBase 和 Cassandra,使得已部署 Hadoop 的用户能够轻松利用 Spark 的强大功能而无需迁移数据。

二、安装spark

1、安装包

我这里使用的是spark3.1.2  安装包放到我的百度网盘上
链接:https://pan.baidu.com/s/1gUXQJN0-utqDBIhnOGb9jQ?pwd=1234 
提取码:1234

2、解压

我是把安装包放到了  /opt/modules  下,解压之后的文件放到  /opt/installs  下

tar -zxvf spark-3.1.2-bin-hadoop3.2.tgz -C /opt/installs

重命名

先到installs下:  cd /opt/indtalls

重命名:  mv spark-3.1.2-bin-hadoop3.2.tgz spark

3、修改环境变量

vi /etc/profile

 
export SPARK_HOME=/opt/installs/spark
export PATH=$PATH:$SPARK_HOME/bin

让其起作用

source /etc/profile

4、安装scala

由于 Spark 本身就是用 Scala 编写的,因此选择 Scala 作为编程语言可以更好地与 Spark 内部代码集成,提高开发效率。

4.1安装包

上面的百度网盘里有

4.2解压

tar -zxvf scala-2.12.10.tgz -C /opt/installs

重命名

mv scala-2.12.10/ scala

4.3修改环境变量

export SCALA_HOME=/opt/installs/scala

export PATH=$PATH:$SCALA_HOME/bin

让其起作用:

source /etc/profile

三、修改配置文件

进入到spark下的conf目录下

cd /opt/installs/spark/conf

将这两个文件cp一下

cp spark-env.sh.template spark-env.sh

cp workers.template workers

 1、修改spark-env.sh

vim spark-env.sh

根据配置修改

export SCALA_HOME=/opt/installs/scala    # 设置 Scala 的安装目录。Scala 是 Spark 的主要编程语言,许多 Spark 的脚本和工具依赖 Scala 环境。
export JAVA_HOME=/opt/installs/jdk  # 设置 Java 的安装目录。Spark 和 Hadoop 都是基于 JVM 的,因此需要 Java 环境。
export SPARK_HOME=/opt/installs/spark  # 设置 Spark 的安装目录。
export HADOOP_INSTALL=/opt/installs/hadoop  # 设置 Hadoop 的安装目录。
export HADOOP_CONF_DIR=$HADOOP_INSTALL/etc/hadoop  #确保 Hadoop 在运行时能够找到其配置文件。
export SPARK_MASTER_IP=192.168.184.128  #确保 Spark 的 worker 节点能够正确连接到主节点。
export SPARK_DRIVER_MEMORY=2G #设置 Spark driver 程序的内存大小。确保 driver 程序有足够的内存来执行任务。
export SPARK_EXECUTOR_MEMORY=2G # 设置 Spark executor 进程的内存大小。确保 executor 进程有足够的内存来执行任务。
export SPARK_LOCAL_DIRS=/opt/installs/spark # 设置 Spark 用于存储临时文件的目录。确保 Spark 在执行任务时有足够的空间来存放临时文件。

2、修改workers文件

vim workers

修改成你当初配置的映射关系的名字

四、使用spark

1、使用scala环境

在opt/installs/spark/conf 下

进入:spark-shell

不在那个目录下:./bin/spark-shell

退出:quit   或   CTRL+D

2、使用python环境

这里需要使用python环境,如果你没有安装或者版本不是python3.0的,安装一下

yum install -y python3

Python 2.7.5 版本已经不能满足当前编程环境需求,所以要安装较高版本的Python3,但Python 2.7.5 版本不能卸载。

进入:pyspark

退出:exit()

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值