pycharm搭建远程spark调试环境
内容描述
之前一直在单机伪分布式的spark环境中调试,操作系统是windows,现在需要连接到集群环境中,CentOS7,Python3.7.1.
集群已经用ambari搭建好了Hadoop生态。
pyspark的安装
由于目标集群已经安装好了spark,因此这里只需要配置环境变量即可。
下面的操作,在spark的master机器上做即可。
在/etc/profile最后加上:
export SPARK_HOME=/usr/hdp/current/spark2-client
export PATH=$SPARK_HOME/bin:/usr/local/python3/ext_pkg/pandoc-2.4/bin:$PATH