1、Spark 包下载
下载后解压即可。
(可选)添加环境变量 SPARK_HOME。并将 %SPARK_HOME%/bin、%SPARK_HOME%/sbin 添加到 path 中。
ps:本文使用的是 spark-3.3.0-bin-hadoop3.tgz
2、启动 SPARK (Standalone)
ps:理论上也可以直接在 idea 里面,引入依赖,直接执行 java 对应主类(Master、Worker)即可,如果有访问权限问题,用反射即可。
2.1 启动 master
- 为当前命令行添加 SPARK_HOME,如果添加了全局的 SPARK_HOME 则这里可以省略(可选)
set SPAK_HOME=D:\Programs\spark-3.3.0-bin-hadoop3
- 启动 master
java -cp %SPARK_HOME%/jars/* -Xmx1g org.apache.spark.deploy.master.Master --host {ip} --port 7077 --webui-port 8080
- 启动 master 并通过 --properties-file 指定配置文件 spark-defaults.conf
java -cp %SPARK_HOME%/jars/* -Xmx1g org.apache.spark.deploy.master.Master --host {ip} --port 7077 --webui-port 8080 --properties-file %SPARK_HOME%/conf/spark-defaults.conf
2.2 启动 Worker
为当前命令行添加 SPARK_HOME,如果添加了全局的 SPARK_HOME 则这里可以省略(可选)
set SPAK_HOME=D:\Programs\spark-3.3.0-bin-hadoop3
woker 启动前需要设置环境变量 SPARK_SCALA_VERSION, 否则提交任务时会报错 Cannot find any build directoies。
set SPARK_SCALA_VERSION=2.12
- 启动 worker
java -cp %SPARK_HOME%/jars/* -Xmx1g org.apache.spark.deploy.worker.Worker spark://{ip}:7077
ps: 一台机器可以起多个 worker,指定不同的端口就行
java -cp %SPARK_HOME%/jars/* -Xmx1g org.apache.spark.deploy.worker.Worker spark://{ip}:7077 --webui-port 9091