目录
一、Spark
1、概述
Spark 是当今大数据领域最活跃、最热门、最高效的大数据通用计算平台之一。
Hadoop 之父 Doug Cutting 指出:Use of MapReduce engine for Big Data projects will decline, replaced by Apache Spark (大数据项目的 MapReduce 引擎的使用将下降,由 Apache Spark 取代)。
2、spark的特点
速度快:Spark 通过内存中的数据处理,实现了比 MapReduce 快达 100 倍的性能提升,即使在基于磁盘的运算中也能快 10 倍。其高效的 DAG 执行引擎使得数据流处理更为迅速。
易用性强:Spark 支持 Java、Python、R 和 Scala 多种语言的 API,并提供了超过 80 种高级算法,简化了应用开发过程。此外,它支持交互式的 Python 和 Scala shell,便于用户快速验证解决方案。
功能全面:Spark 是一个统一的数据处理框架,支持批处理、交互式查询(Spark SQL)、实时流处理(Spark Streaming)、机器学习(MLlib)和图计算(GraphX),能够在单一平台上无缝集成多种处理模式。
兼容性佳:Spark 能够与现有的 Hadoop 生态系统无缝融合,支持 Hadoop 的 YARN 和 Apache Mesos 作为资源调度器,并且可以直接处理 Hadoop 支持的各种数据存储,如 HDFS、HBase 和 Cassandra,使得已部署 Hadoop 的用户能够轻松利用 Spark 的强大功能而无需迁移数据。
二、安装spark
1、安装包
我这里使用的是spark3.1.2 安装包放到我的百度网盘上
链接:https://pan.baidu.com/s/1gUXQJN0-utqDBIhnOGb9jQ?pwd=1234
提取码:1234
2、解压
我是把安装包放到了 /opt/modules 下,解压之后的文件放到 /opt/installs 下
tar -zxvf spark-3.1.2-bin-hadoop3.2.tgz -C /opt/installs
重命名
先到installs下: cd /opt/indtalls
重命名: mv spark-3.1.2-bin-hadoop3.2.tgz spark
3、修改环境变量
vi /etc/profile
export SPARK_HOME=/opt/installs/spark
export PATH=$PATH:$SPARK_HOME/bin让其起作用
source /etc/profile
4、安装scala
由于 Spark 本身就是用 Scala 编写的,因此选择 Scala 作为编程语言可以更好地与 Spark 内部代码集成,提高开发效率。
4.1安装包
上面的百度网盘里有
4.2解压
tar -zxvf scala-2.12.10.tgz -C /opt/installs
重命名
mv scala-2.12.10/ scala
4.3修改环境变量
export SCALA_HOME=/opt/installs/scala
export PATH=$PATH:$SCALA_HOME/bin
让其起作用:
source /etc/profile
三、修改配置文件
进入到spark下的conf目录下
cd /opt/installs/spark/conf
将这两个文件cp一下
cp spark-env.sh.template spark-env.sh
cp workers.template workers
1、修改spark-env.sh
vim spark-env.sh
根据配置修改
export SCALA_HOME=/opt/installs/scala # 设置 Scala 的安装目录。Scala 是 Spark 的主要编程语言,许多 Spark 的脚本和工具依赖 Scala 环境。
export JAVA_HOME=/opt/installs/jdk # 设置 Java 的安装目录。Spark 和 Hadoop 都是基于 JVM 的,因此需要 Java 环境。
export SPARK_HOME=/opt/installs/spark # 设置 Spark 的安装目录。
export HADOOP_INSTALL=/opt/installs/hadoop # 设置 Hadoop 的安装目录。
export HADOOP_CONF_DIR=$HADOOP_INSTALL/etc/hadoop #确保 Hadoop 在运行时能够找到其配置文件。
export SPARK_MASTER_IP=192.168.184.128 #确保 Spark 的 worker 节点能够正确连接到主节点。
export SPARK_DRIVER_MEMORY=2G #设置 Spark driver 程序的内存大小。确保 driver 程序有足够的内存来执行任务。
export SPARK_EXECUTOR_MEMORY=2G # 设置 Spark executor 进程的内存大小。确保 executor 进程有足够的内存来执行任务。
export SPARK_LOCAL_DIRS=/opt/installs/spark # 设置 Spark 用于存储临时文件的目录。确保 Spark 在执行任务时有足够的空间来存放临时文件。
2、修改workers文件
vim workers
修改成你当初配置的映射关系的名字
四、使用spark
1、使用scala环境
在opt/installs/spark/conf 下
进入:spark-shell
不在那个目录下:./bin/spark-shell
退出:quit 或 CTRL+D
2、使用python环境
这里需要使用python环境,如果你没有安装或者版本不是python3.0的,安装一下
yum install -y python3
Python 2.7.5 版本已经不能满足当前编程环境需求,所以要安装较高版本的Python3,但Python 2.7.5 版本不能卸载。
进入:pyspark
退出:exit()