spark程序在windows下本地调试
前言:
在最初接触spark分布式平台程序开发时,如何快速的调试spark应用程序,提高开发效率尤为重要。正所谓兵马未动,粮草先行。因此接下来开始准备高效的spark开发环境。
软件下载
以下5个安装包都汇总在个人百度网盘中,请直接下载。
链接: http://pan.baidu.com/s/1i50uJXF 密码: qxic
- jdk-7u80-windows-x64.exe
- scala-2.10.6
- apache-maven-3.0.4
- spark-1.6.0-bin-hadoop2.6
- hadoop-common-2.2.0-bin-master
软件安装与配置
配置位置在:
Control Panel\System and Security\System
--> Advanced system settings
--> Advance --> Environment Variables --> System variables
- jdk配置
- JAVA_HOME = E:\DevTool\Java\jdk1.7.0_80
- scala配置
- SCALA_HOME = E:\DevTool\scala-2.10.6
- maven配置
- MAVEN_HOME = E:\DevTool\apache-maven-3.0.4
- hadoop配置
- HADOOP_HOME = E:\DevTool\hadoop-common-2.2.0-bin-master
- spark配置
- SPARK_HOME = E:\DevTool\spark-1.6.0-bin-hadoop2.6
- 终极path配置
- %JAVA_HOME%\bin;%SCALA_HOME%\bin;%MAVEN_HOME%\bin;%SPARK_HOME%\bin;%HADOOP_HOME%\bin;
测试spark windows是否安装成功?
Step1:在H:\wmky_kk\Documents\0TempFiles新建一个sparkTestFile.txt文件内容为:
kaikai spark
hadoop
suli hadoop
Step2:Win+R快捷键弹出框中输入cmd,接在在dos命令终端中输入spark-shell
Step3:scala> 输入以下内容
sc.textFile("file:///H:\\wmky_kk\\Documents\\0TempFiles\\SparkTestFile.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_ + _).collect
若结果输出如下内容,说明spark在本地调试已经成功安装。
res0: Array[(String,int)] = Array((kaikai,1),(spark,1),(hadoop,2),(suli,1))
intellij构建maven项目–sparkTest
暂时直接附上github地址,spark程序windows本地调试代码在com.juanpi.spark.local.ActiveJpid代码中。
https://github.com/wmky/sparkTest.git
PS:sc.textFile(path)方法使用
若path为windows下路径,H盘下sparkTestDir目录下的abc.txt文件,在windows查看路径为H:\sparkTestDir\abc.txt,而在sc.textFile中path = "file:///H:\\sparkTestDir\\abc.txt"
若path为linux系统上执行,则path为HDFS的路径,path的格式为
hdfs://nameservice1/user/spark/abc.txt或者/user/spark/abc.txt
其中nameservice1为dfs.nameservices的名称,在hdfs-site.xml设置
<property>
<name>dfs.nameservices</name>
<value>nameservice1</value>
</property>