本文对window7 本地模式下开启spark并测试的过程进行了记录,以下操作确保在安装完成spark和hadoop之后可以测试,其中spark对应的版本为2.4.6,hadoop为2.6,anaconda3-4.2.0-windows-x86_64,python3.5,jdk为1.8(64位)。
1、在spark的安装目录下,打开bin找到spark-shell.cmd,开启spark,开启后在黑框中可以看到spark开启成功的输出,spark开启后可以通过在浏览器打开localhost:4040进行查看和确认。
2、之后通过pycharm调用pyspark编写一个脚本,如下图,将其保存到C:\aa.py
3、cmd进入spark的安装目录下,切换到bin目录下,运行spark-submit --master local /C:/aa.py,其中master后面的local参数可以参考Spark任务提交(Spark Submit) 详细说明。
4、任务提交上去后,在cmd输出中即可查看程序的执行输出。