pyspark安装系列(2):Spark里使用anaconda(详细部署流程)

介绍

上一篇文章,详细介绍了如何在Linux系统安装Spark。
详细了解请点击:系列之一:Linux系统安装单机版Spark

但还遗留一个问题,就是PySpark使用的是Linux默认的Python2.7.5版本(见下图)。
在这里插入图片描述
对于习惯使用Python3.0版本的我来说感觉超级不爽,另外笔者本人更喜欢Anaconda,特别对于主要使用工具是Python的算法人员来说,使用Anaconda是很爽的。Anaconda它是一个统一的、跨平台的虚拟环境,优点包括统一的环境、丰富的第三方包以及多Py版本支持等,但重要的还是一个字:省心,省心,省心(不是说好的一个字吗,重要的事说三遍)。
那么如何在pyspark中也可以使用Anaconda呢?这里笔者研读了pyspark的脚本,给出已经实施成功的解决方案。

步骤

第一步:下载Anaconda。

途径一:可以从官网下载,但速度很慢。
Anaconda官网下载地址
途径二:从清华大学镜像网站下载,速度特别快,重点推荐。
清华大学开源软件镜像站

这里我下载的最新版本,见下图:
在这里插入图片描述
将Anaconda文件存放到目录下,这里我选择和spark同一目录下,
在这里插入图片描述
第二步:安装。
步骤见下:

  1. 输入安装命令:bash Anaconda3-5.3.1-Linux-x86_64.sh
  2. 回车
  3. 输入:yes
  4. 这一步可选择默认安装,点击回车,当然也可以修改,见下图。这里我选择另定义安装目录,输入:/tmp/software/anaconda3
  5. 输入:yes

在这里插入图片描述

注意,这里可能会提示安装不成功,报错:tar (child): lbzip2: Cannot exec: No such file or directory ……
这是因为缺少解压工具bzip2,解决如下:
直接输入:yum install bzip2

然后再次执行上述安装步骤,提示“Thank you for installing Anaconda3!”视为安装成功。

第三步:文件配置。
打开配置文件:

vim  /etc/profile

选择“e”,并输入“i”进入编辑模式,然后在文件的最后加上如下配置:

export ANACONDA_HOME=/tmp/software/anaconda3
export PATH=$ANACONDA_HOME/bin:$PATH
export PYSPARK_PYTHON=$ANACONDA_HOME/bin/python

如下如:
在这里插入图片描述
保存退出并运行:source /etc/profile 使文件修改生效。

输入pyspark,运行,可以看出,python版本已经是3.7.0版本,可以很惬意的在spark里使用Aanconda了。。
在这里插入图片描述

End…
下一篇文章继续介绍如何实现在windows上通过浏览器远程连接Linux服务器的jupyter notebook
系列之三:在windows通过浏览器远程连接Linux服务器的jupyter notebook

参考:
spark2.0下实现IPYTHON3.5开发,兼配置jupyter,notebook降低python开发难度
tar (child): lbzip2: Cannot exec: No such file or

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

data大柳

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值