解决pyspark无法导入的问题

最新推荐文章于 2024-06-19 21:13:22 发布

yyqq188

最新推荐文章于 2024-06-19 21:13:22 发布

阅读量9.1k

点赞数 2

分类专栏： spark

本文链接：https://blog.csdn.net/yyqq188/article/details/78968566

版权

5 篇文章 0 订阅

订阅专栏

下载spark-2.2.0-bin-hadoop2.7后进入python文件夹

在python文件夹下有pyspark和pyspark.egg-info文件夹，将这两个文件夹放入anaconda所在的文件夹下

我的目录是C:\ProgramData\Anaconda3\Lib\site-packages，放入该文件夹下即可

然后打开pycharm后，在 file ----》 default setting ---》 project interpreter 中指定好anaconda的python解释器

然后写入写入代码

from pyspark.sql import SparkSession

问题出现：会报 No module named 'pyspark.sql'; 'pyspark' is not a package 找不到这个包

出现这个问题有各种解法：看https://stackoverflow.com/questions/42030183/jupyter-pyspark-no-module-named-pyspark

其中有个最简单的方法，我说的是windows环境下的

解决方法：

1 cmd ----》 pip install findspark

2 代码中写

import findspark
findspark.init('/path_to_spark/spark-x.x.x-bin-hadoopx.x')
from pyspark.sql import SparkSession

就可以了

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

关注关注