在配置好spark运行环境以后,在其shell里运行pyspark代码不如jupyter notebook中方便所以记录一下环境搭建过程
1.首先在高级系统设置中新建环境变量如表1所示:其中前两个为自己电脑上spark和hadoop的安装位置,设置好后将电脑重启;
2.进入CMD中pip 安装findspark 具体指令为: pip install findspark;
3.再次进入CMD输入jupyter notebook 进入jupyter notebook后新建Python3类型脚本,然后输入如下几行代码:
import findspark
findspark.init()
import os
import sys
spark_name = os.environ.get('SPARK_HOME',None)
if not spark_name:
raise ValueErrorError('spark环境没有配置好')
sys.path.insert(0,os.path.join(spark_name,'python'))
sys.path.insert(0,os.path.join(spark_name,'python/lib/py4j-0.10.6-src.zip'))
#(python/lib/py4j-0.10.6-src.zip位于D:spark-2.3.0-bin-hadoop2.7中python文件夹中lib文件夹内,请根据自己的版本更改)
exec(open(os.path.join(spark_name,'python/pyspark/shell.py')).read())
执行上述步骤以后就可以在jupyter notebook中愉快的玩耍pyspak了。
表1 需要添加的环境变量
Name | Value |
SPARK_HOME | D:spark-2.3.0-bin-hadoop2.7 |
HADOOP_HOME | D:\hadoop-2.8.3 |
PYSPARK_DRIVER_PYTHON | jupyter |
PYSPARK_DRIVER_PYTHON_OPTS | notebook |