win10的jupyter notebook使用pyspark2.3.2解决的报错问题

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/yanpenggong/article/details/87001119

1、问题出现:

py4j.protocol.Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe.

关于windows10下使用jupyter notebook时,对于pyspark版本只能取其spark2.3.2版本,具体简单demo如下:
在这里插入图片描述
如果版本不对,会报如下错:
在这里插入图片描述
在这里插入图片描述
关于python在windows10下使用pyspark的环境配置如下:
spark-2.3.2-bin-hadoop2.7资源包:https://pan.baidu.com/s/1EQV8VrDg_DDE39rXBILzRA 提取码:dflf
JDK1.8的资源包:https://pan.baidu.com/s/1HuwFyUnOaHfZNnKPS_uvUg 提取码:u8uu
winutils的资源包:链接:https://pan.baidu.com/s/1v7UI5taiy83JcoXg_8akdA 提取码:3duu

2、环境搭建:

java 的安装路径环境配置

变量名:JAVA_HOME
变量值:C:\Kungs\Java\jdk1.8.0_201

为了用命令pyspark直接启动 jupyter notebook

变量名:PYSPARK_DRIVER_PYTHON
变量值:jupyter
变量名:PYSPARK_DRIVER_PYTHON_OPTS
变量值:notebook

pyspark中的python的环境设置

变量名:PYTHONPATH
变量值:%SPARK_HOME%\python\lib\py4j;%SPARK_HOME%\python\lib\pyspark

spark在本地的环境设置,其路径是解压前面spark-2.3.2-bin-hadoop2.7资源包的位置

变量名:SPARK_HOME
变量值:C:\Kungs\spark-2.3.2-bin-hadoop2.7

同时在path环境中添加环境:

变量名:path
变量值:;C:\Kungs\Java\jdk1.8.0_201\bin;%JAVA_HOME%\bin;%SPARK_HOME%\bin;C:\Kungs\spark-2.3.2-bin-hadoop2.7\bin;

winutils资源包直接放在spark的路径下,这里放在C:\Kungs\spark-2.3.2-bin-hadoop2.7\bin目录下

再利用pip install pyspark==2.3.2 进行装包

测试pyspark成功:pyspark
测试java成功:javajavac

展开阅读全文

没有更多推荐了,返回首页