jupyter notebook中使用pyspark环境配置以及导入SC报错问题解决

最新推荐文章于 2025-05-06 15:04:12 发布

訾尤

最新推荐文章于 2025-05-06 15:04:12 发布

阅读量2.8k

点赞数 6

分类专栏：大数据文章标签： pyspark jupyter notebook

本文链接：https://blog.csdn.net/zizhuangzhuang/article/details/89376997

版权

大数据专栏收录该内容

4 篇文章

订阅专栏

在配置好spark运行环境以后，在其shell里运行pyspark代码不如jupyter notebook中方便所以记录一下环境搭建过程

1.首先在高级系统设置中新建环境变量如表1所示：其中前两个为自己电脑上spark和hadoop的安装位置，设置好后将电脑重启；

2.进入CMD中pip 安装findspark 具体指令为： pip install findspark；

3.再次进入CMD输入jupyter notebook 进入jupyter notebook后新建Python3类型脚本，然后输入如下几行代码：

import findspark
findspark.init()

import os
import sys
spark_name = os.environ.get('SPARK_HOME',None)
if not spark_name:
raise ValueErrorError('spark环境没有配置好')
sys.path.insert(0,os.path.join(spark_name,'python'))
sys.path.insert(0,os.path.join(spark_name,'python/lib/py4j-0.10.6-src.zip'))

#(python/lib/py4j-0.10.6-src.zip位于D:spark-2.3.0-bin-hadoop2.7中python文件夹中lib文件夹内，请根据自己的版本更改)
exec(open(os.path.join(spark_name,'python/pyspark/shell.py')).read())

执行上述步骤以后就可以在jupyter notebook中愉快的玩耍pyspak了。

表1 需要添加的环境变量