Ubuntu配置Jupyter Notebook实现和PySpark交互,在运行实例的时候出现ModuleNotFoundError: No module named 'py4j’问题
学习厦门大学数据库实验室的spark教程中它的环境配置中py4j的版本是0.10.4,而我下载的py4j版本是0.10.7。
1.如果不知道自己的py4j版本,可以在命令行中输入cd $SPARK_HOME/python/lib,这表示进入到py4j所在的文件目录下
2.然后再输入ls
3.这样就能看到自己py4j所对应的版本,如图所示:

然后输入vim ~/.bashrc,将py4j的版本修改为自己虚拟机中对应的版本号,我这里就将其修改为py4j-0.10.7-src.zip,如下图所示:

按下Esc键然后再输入:wq,表示保存并退出这个文件。然后在命令行中输入source ~/.bashrc,使环境配置立马生效
此时返回Jupyter Notebook重新运行实例,因为之前运行过代码,需要点击首页的“刷新”按钮一下,再运行,如下图所示:

会弹出一个小窗口,点击重启即可

此时就已经能够正常运行出结果,如下图所示:


1417

被折叠的 条评论
为什么被折叠?



