准备工作
1.需要java环境和hadoop环境
2.去官网下载spark并解压(http://spark.apache.org/downloads.html)
配置spark环境变量
1.配置SPARK_HOME,值为spark的解压安装路径。
2.配置Path,值为 %SPARK_HOME%\bin。
3.spark环境搭建完成,在cmd中输入pyspark测试能否正常启动。
出现该spark图像后就表示配置成功,可以输入**exit()**命令来退出spark。
配置spark开发依赖包
创建一个新项目,点击File–>Settings进去配置界面,将spark中的两个包导入项目中。
在pycharm中配置spark
点击Run–>Edit Configurations进入配置页面。 增加SPARK_HOME目录与PYTHONPATH目录。
SPARK_HOME:Spark的安装目录。
PYTHONPATH:Spark安装目录下\Python\lib\py4j-0.10.8.1-src.zip。
将spark-core引入python
至此,就可以开发SPARK程序了。