介绍
上一篇文章,详细介绍了如何在Linux系统安装Spark。
详细了解请点击:系列之一:Linux系统安装单机版Spark
但还遗留一个问题,就是PySpark使用的是Linux默认的Python2.7.5版本(见下图)。
对于习惯使用Python3.0版本的我来说感觉超级不爽,另外笔者本人更喜欢Anaconda,特别对于主要使用工具是Python的算法人员来说,使用Anaconda是很爽的。Anaconda它是一个统一的、跨平台的虚拟环境,优点包括统一的环境、丰富的第三方包以及多Py版本支持等,但重要的还是一个字:省心,省心,省心(不是说好的一个字吗,重要的事说三遍)。
那么如何在pyspark中也可以使用Anaconda呢?这里笔者研读了pyspark的脚本,给出已经实施成功的解决方案。
步骤
第一步:下载Anaconda。
途径一:可以从官网下载,但速度很慢。
Anaconda官网下载地址
途径二:从清华大学镜像网站下载,速度特别快,重点推荐。
清华大学开源软件镜像站
这里我下载的最新版本,见下图:
将Anaconda文件存放到目录下,这里我选择和spark同一目录下,
第二步:安装。
步骤见下:
- 输入安装命令:bash Anaconda3-5.3.1-Linux-x86_64.sh
- 回车
- 输入:yes
- 这一步可选择默认安装,点击回车,当然也可以修改,见下图。这里我选择另定义安装目录,输入:/tmp/software/anaconda3
- 输入:yes
注意,这里可能会提示安装不成功,报错:tar (child): lbzip2: Cannot exec: No such file or directory ……
这是因为缺少解压工具bzip2,解决如下:
直接输入:yum install bzip2
然后再次执行上述安装步骤,提示“Thank you for installing Anaconda3!”视为安装成功。
第三步:文件配置。
打开配置文件:
vim /etc/profile
选择“e”,并输入“i”进入编辑模式,然后在文件的最后加上如下配置:
export ANACONDA_HOME=/tmp/software/anaconda3
export PATH=$ANACONDA_HOME/bin:$PATH
export PYSPARK_PYTHON=$ANACONDA_HOME/bin/python
如下如:
保存退出并运行:source /etc/profile 使文件修改生效。
输入pyspark,运行,可以看出,python版本已经是3.7.0版本,可以很惬意的在spark里使用Aanconda了。。
End…
下一篇文章继续介绍如何实现在windows上通过浏览器远程连接Linux服务器的jupyter notebook
系列之三:在windows通过浏览器远程连接Linux服务器的jupyter notebook
参考:
spark2.0下实现IPYTHON3.5开发,兼配置jupyter,notebook降低python开发难度
tar (child): lbzip2: Cannot exec: No such file or