首先需要在ubuntu中安装配置好java、hadoop和spark,可参考hadoop单机/伪分布式配置和
spark安装与使用,并且下载安装好anaconda;
下载安装好spark和anaconda以后,需要在终端配置环境变量
打开终端,输入:
sudo vim ~/.bashrc
用vim编辑器打开.bashrc配置文件,bashrc文件只设置当前用户下的环境变量,vim编辑器在键盘输入i以后进入插入模式,在.bashrc中添加:
其中的路径需要根据你jvm、spark所解压的路径以及你所安装的jdk版本来修改,若使用的就是上面的下载安装教程,应该是可以直接复制的(小tip:在ubuntu终端和vim编辑器中需要使用ctrl+shift+c来实现复制,ctrl+shift+v来实现粘贴)
添加配置java的环境变量
export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_162
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH
添加配置pyspark的环境变量
export SPARK_