jupyter notebook中使用pyspark环境配置以及导入SC报错问题解决

在配置好spark运行环境以后,在其shell里运行pyspark代码不如jupyter notebook中方便所以记录一下环境搭建过程

1.首先在高级系统设置中新建环境变量如表1所示:其中前两个为自己电脑上spark和hadoop的安装位置,设置好后将电脑重启;

2.进入CMD中pip 安装findspark 具体指令为: pip install findspark;

3.再次进入CMD输入jupyter notebook 进入jupyter notebook后新建Python3类型脚本,然后输入如下几行代码:

import findspark
findspark.init()

import os
import sys
spark_name = os.environ.get('SPARK_HOME',None)
if not spark_name:
    raise ValueErrorError('spark环境没有配置好')
sys.path.insert(0,os.path.join(spark_name,'python'))
sys.path.insert(0,os.path.join(spark_name,'python/lib/py4j-0.10.6-src.zip'))

#(python/lib/py4j-0.10.6-src.zip位于D:spark-2.3.0-bin-hadoop2.7中python文件夹中lib文件夹内,请根据自己的版本更改)
exec(open(os.path.join(spark_name,'python/pyspark/shell.py')).read())

执行上述步骤以后就可以在jupyter notebook中愉快的玩耍pyspak了。

                                                                表1 需要添加的环境变量

NameValue
SPARK_HOMED:spark-2.3.0-bin-hadoop2.7
HADOOP_HOMED:\hadoop-2.8.3
PYSPARK_DRIVER_PYTHONjupyter
PYSPARK_DRIVER_PYTHON_OPTS

notebook

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

訾尤

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值