配置spark driver

最新推荐文章于 2023-01-04 23:56:09 发布

孤数不证

最新推荐文章于 2023-01-04 23:56:09 发布

阅读量1.1k

点赞数

本文链接：https://blog.csdn.net/weixin_43668299/article/details/107079022

版权

这篇博客介绍了如何配置Spark Driver和PySpark运行时使用的Python解释器路径，特别是当存在多个Python版本时如何避免错误。通过设置环境变量PYSPARK_PYTHON和PYSPARK_DRIVER_PYTHON，并指定JAVA_HOME，确保使用正确的解释器。此外，还展示了如何配置SparkConf，包括设置executor内存、CPU核心数，以及动态分配和shuffle服务等参数。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

import os

配置spark driver和pyspark运行时，所使用的python解释器路径

由于miniconda3中默认存在一个python3.7的版本，jupyter默认也使用的是这个版本，故：设置pyspark的解释器为miniconda3的解释器

PYSPARK_PYTHON = “/root/miniconda3/bin/python3”
JAVA_HOME=’/root/bigdata/jdk1.8.0_181’

当存在多个版本时，不指定很可能会导致出错

os.environ[“PYSPARK_PYTHON”] = PYSPARK_PYTHON
os.environ[“PYSPARK_DRIVER_PYTHON”] = PYSPARK_PYTHON
os.environ[‘JAVA_HOME’]=JAVA_HOME

spark配置信息

from pyspark import SparkConf
from pyspark.sql import SparkSession

SPARK_APP_NAME = “preprocessingBehaviorLog”
SPARK_URL = “spark://192.168.199.126:7077”

conf = SparkConf() # 创建spark config对象
config = (
(“spark.app.name”, SPARK_APP_NAME), # 设置启动的spark的app名称，没有提供，将随机产生一个名称
(“spark.executor.memory”, “2g”), # 设置该app启动时占用的内存用量，默认1g
(“spark.master”, SPARK_URL), # spark master的地址
(“spark.executor.cores”, “2”), # 设置spark executor使用的CPU核心数
# 以下三项配置，可以控制执行器数量