快乐的装机又来了
一 下载安装包
1 官网下载
链接: Apache Spark.
2 网盘下载
链接: spark-2.4.5-bin-hadoop2.6.tgz.提取码:0pmd
二 上传至Linux虚拟机及解压
- 上传压缩包至虚拟机
/opt
目录下 - 解压:
tar -zxvf spark-2.4.5-bin-hadoop2.6.tgz
- 重命名:
mv spark-2.4.5-bin-hadoop2.6 spark245
三 内置文件配置
-
转到Spark的conf下:
cd /opt/spark245/conf
-
复制文件:
cp spark-env.sh.template spark-env.sh
-
在
vi /opt/spark245/conf/spark-env.sh
添加下方代码
export JAVA_HOEM=/opt/jdk1.8.0_221 //jdk安装位置
export SCALA_HOME=/opt/scala221 //scala安装位置
export SPARK_HOME=/opt/spark245 //spark安装位置
export SPARK_MASTER_IP=hadoopwei //主机名
export SPARK_EXECUTOR_MEMORY=1G //spark在java虚拟机分配的执行内存
- 复制slaves.template文件:
cp slaves.template slaves
- 添加主机名,单机默认就好,集群需添加其他机器。
四 环境变量配置
vi /etc/profile
export SPARK_HOME=/opt/spark245
export PATH=$PATH:$SPARK_HOME/bin
- source一下使之生效:
source /etc/profile
五 测试
1 本地模式
spark-shell
- 输入
spark-shell
默认分配虚拟机全部内核数
- 输入下方代码即可看到spark使用核数。
sc.parallelize(List(1,2,3,4,5,6,7,8))
res0.partitions.size
spark-shell --master local[*]
- 是上方
spark-shell
的完整版
spark-shell --master local[2]
- 指定两核启动
2 单机模式
- 首先启动spark(因为启动命令start-all跟hadoop相同,所以即使配置全局变量也会被覆盖而失效,那么就不配置,直接到sbin目录下启动。)
cd /opt/spark245/sbin
./start-all.sh
jps
- 输入
spark-shell --master spark://hadoopwei:7077
启动单机模式
- 新建一个窗口查看
jps