- 解决问题1:为便于对包进行管理,对python项目需要分别使用独立的python环境,这样便于进行包的管理,利用Anaconda来创建一个干净的python虚拟环境;
- 解决问题2:解决在提交代码到yarn模式的时候,会出现的诸如类似如下报错。
ImportError: No module named numpy
实施步骤
第一步:安装Anaconda。
系统中首先需要安装的有anaconda,然后才可以使用conda命令,此步骤是为了用conda命令。
- 下载。下载途径可以选择从官网下载,但速度很慢。建议使用清华大学开源软件镜像站。
- 安装。下载好安装包放到服务器上,cd到服务器上安装包所在位置,用bash命令安装。
具体下载路径及安装步骤见作者另一篇博文:
系列之二:Spark里使用Anaconda实现
第二步:添加Anaconda到环境变量中
- 输入指令。
echo 'export PATH="/home/hadoop/anaconda3/bin:$PATH"' >> ~/.bashrc
- 然后输入指令。
source ~/.bashrc
- 查看版本。