1.安装包下载
目前Spark最新稳定版本:课程中使用目前Spark最新稳定版本:3.1.x系列
https://spark.apache.org/docs/3.1.2/index.html
2.测试
说明:
sc:SparkContext实例对象:
spark:SparkSession实例对象
4040:Web监控页面端口号
●Spark-shell说明:
1.直接使用./spark-shell
表示使用local 模式启动,在本机启动一个SparkSubmit进程
2.还可指定参数 --master,如:
spark-shell --master local[N] 表示在本地模拟N个线程来运行当前任务
spark-shell --master local[*] 表示使用当前机器上所有可用的资源
3.不携带参数默认就是
spark-shell --master local[*]
4.后续还可以使用--master指定集群地址,表示把任务提交到集群上运行,如
./spark-shell --master spark://node01:7077,node02:7077
5.退出spark-shell
使用 :quit
3.PySpark环境安装
功能 | PySpark | Spark |
底层语言 | Scala(JVM) | Scala(JVM) |
上层语言支持 | Python | Python\Java\Scala\R |
集群化\分布式运行 | 支持 | 支持 |
定位 | Python库 (客户端) | 标准框架 (客户端和服务端) |
是否可以Daemon运行 | No | Yes |
使用场景 | 生产环境集群化运行 | 生4. |
4.PySpark安装
使用PyPI安装PySpark如下:也可以指定版本安装
pip install pyspark
或者指定清华镜像(对于网络较差的情况):
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pyspark # 指定清华镜像源
如果要为特定组件安装额外的依赖项,可以按如下方式安装(此步骤暂不执行,后面Sparksql部分会执行):
pip install pyspark[sq
5.修改配置文件
cd /export/server/spark/conf/
cp workers.template workers
vim workers
添加以下内容:
node1.itcast.cn
node2.itcast.cn
node3.itcast.cn
cd /export/server/spark/conf
cp spark-env.sh.template spark-env.sh
vim spark-env.sh
增加如下内容:
JAVA_HOME=/export/server/jdk1.8.0_241/
HADOOP_CONF_DIR=/export/server/hadoop-3.3.0/etc/hadoop/
YARN_CONF_DIR=/export/server/hadoop-3.3.0/etc/hadoop/
export SPARK_MASTER_HOST=node1.itcast.cn
export SPARK_MASTER_PORT=7077
SPARK_MASTER_WEBUI_PORT=8080
SPARK_WORKER_CORES=2
SPARK_WORKER_MEMORY=2g
SPARK_WORKER_PORT=7078
SPARK_WORKER_WEBUI_PORT=8081
SPARK_HISTORY_OPTS="-Dspark.history.fs.logDirectory=hdfs://node1.itcast.cn:8020/sparklog/ -Dspark.history.fs.cleaner.enabled=true"
6.连接集群