win10的jupyter notebook使用pyspark2.3.2解决的报错问题

最新推荐文章于 2023-05-22 20:36:53 发布

Kungs8

最新推荐文章于 2023-05-22 20:36:53 发布

阅读量1.1k

点赞数

分类专栏： python spark 文章标签： pyspark

本文链接：https://blog.csdn.net/yanpenggong/article/details/87001119

版权

27 篇文章 0 订阅

订阅专栏

4 篇文章 0 订阅

订阅专栏

py4j.protocol.Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe.

关于windows10下使用jupyter notebook时，对于pyspark版本只能取其spark2.3.2版本，具体简单demo如下:
在这里插入图片描述
如果版本不对，会报如下错：

关于python在windows10下使用pyspark的环境配置如下：
spark-2.3.2-bin-hadoop2.7资源包：https://pan.baidu.com/s/1EQV8VrDg_DDE39rXBILzRA 提取码：dflf
JDK1.8的资源包：https://pan.baidu.com/s/1HuwFyUnOaHfZNnKPS_uvUg 提取码：u8uu
winutils的资源包：链接：https://pan.baidu.com/s/1v7UI5taiy83JcoXg_8akdA 提取码：3duu

java 的安装路径环境配置

变量名：JAVA_HOME
变量值：C:\Kungs\Java\jdk1.8.0_201

为了用命令pyspark直接启动 jupyter notebook

变量名：PYSPARK_DRIVER_PYTHON
变量值：jupyter

变量名：PYSPARK_DRIVER_PYTHON_OPTS
变量值：notebook

pyspark中的python的环境设置

变量名：PYTHONPATH
变量值：%SPARK_HOME%\python\lib\py4j;%SPARK_HOME%\python\lib\pyspark

spark在本地的环境设置，其路径是解压前面spark-2.3.2-bin-hadoop2.7资源包的位置

变量名：SPARK_HOME
变量值：C:\Kungs\spark-2.3.2-bin-hadoop2.7

同时在path环境中添加环境：

变量名：path
变量值：;C:\Kungs\Java\jdk1.8.0_201\bin;%JAVA_HOME%\bin;%SPARK_HOME%\bin;C:\Kungs\spark-2.3.2-bin-hadoop2.7\bin;

winutils资源包直接放在spark的路径下，这里放在C:\Kungs\spark-2.3.2-bin-hadoop2.7\bin目录下

再利用pip install pyspark==2.3.2 进行装包

测试pyspark成功：pyspark
测试java成功：java、javac

关注