1、问题出现:
py4j.protocol.Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe.
关于windows10下使用jupyter notebook时,对于pyspark版本只能取其spark2.3.2版本,具体简单demo如下:
如果版本不对,会报如下错:
关于python在windows10下使用pyspark的环境配置如下:
spark-2.3.2-bin-hadoop2.7资源包:https://pan.baidu.com/s/1EQV8VrDg_DDE39rXBILzRA 提取码:dflf
JDK1.8的资源包:https://pan.baidu.com/s/1HuwFyUnOaHfZNnKPS_uvUg 提取码:u8uu
winutils的资源包:链接:https://pan.baidu.com/s/1v7UI5taiy83JcoXg_8akdA 提取码:3duu
2、环境搭建:
java 的安装路径环境配置
变量名:JAVA_HOME
变量值:C:\Kungs\Java\jdk1.8.0_201
为了用命令pyspark
直接启动 jupyter notebook
变量名:PYSPARK_DRIVER_PYTHON
变量值:jupyter
变量名:PYSPARK_DRIVER_PYTHON_OPTS
变量值:notebook
pyspark中的python的环境设置
变量名:PYTHONPATH
变量值:%SPARK_HOME%\python\lib\py4j;%SPARK_HOME%\python\lib\pyspark
spark在本地的环境设置,其路径是解压前面spark-2.3.2-bin-hadoop2.7资源包的位置
变量名:SPARK_HOME
变量值:C:\Kungs\spark-2.3.2-bin-hadoop2.7
同时在path环境中添加环境:
变量名:path
变量值:;C:\Kungs\Java\jdk1.8.0_201\bin;%JAVA_HOME%\bin;%SPARK_HOME%\bin;C:\Kungs\spark-2.3.2-bin-hadoop2.7\bin;
winutils资源包直接放在spark的路径下,这里放在C:\Kungs\spark-2.3.2-bin-hadoop2.7\bin
目录下
再利用pip install pyspark==2.3.2
进行装包
测试pyspark成功:pyspark
测试java成功:java
、javac