spark在windows本地调试

spark程序在windows下本地调试

前言:

在最初接触spark分布式平台程序开发时,如何快速的调试spark应用程序,提高开发效率尤为重要。正所谓兵马未动,粮草先行。因此接下来开始准备高效的spark开发环境。

软件下载

以下5个安装包都汇总在个人百度网盘中,请直接下载。
链接: http://pan.baidu.com/s/1i50uJXF 密码: qxic

软件安装与配置

配置位置在:
Control Panel\System and Security\System 
--> Advanced system settings 
--> Advance --> Environment Variables  --> System variables
  • jdk配置
    • JAVA_HOME = E:\DevTool\Java\jdk1.7.0_80
  • scala配置
    • SCALA_HOME = E:\DevTool\scala-2.10.6
  • maven配置
    • MAVEN_HOME = E:\DevTool\apache-maven-3.0.4
  • hadoop配置
    • HADOOP_HOME = E:\DevTool\hadoop-common-2.2.0-bin-master
  • spark配置
    • SPARK_HOME = E:\DevTool\spark-1.6.0-bin-hadoop2.6
  • 终极path配置
    • %JAVA_HOME%\bin;%SCALA_HOME%\bin;%MAVEN_HOME%\bin;%SPARK_HOME%\bin;%HADOOP_HOME%\bin;

测试spark windows是否安装成功?

Step1:在H:\wmky_kk\Documents\0TempFiles新建一个sparkTestFile.txt文件内容为:
kaikai spark
hadoop
suli hadoop
Step2:Win+R快捷键弹出框中输入cmd,接在在dos命令终端中输入spark-shell
Step3:scala> 输入以下内容

sc.textFile("file:///H:\\wmky_kk\\Documents\\0TempFiles\\SparkTestFile.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_ + _).collect

若结果输出如下内容,说明spark在本地调试已经成功安装。

res0: Array[(String,int)] = Array((kaikai,1),(spark,1),(hadoop,2),(suli,1))

intellij构建maven项目–sparkTest

暂时直接附上github地址,spark程序windows本地调试代码在com.juanpi.spark.local.ActiveJpid代码中。
https://github.com/wmky/sparkTest.git

PS:sc.textFile(path)方法使用
若path为windows下路径,H盘下sparkTestDir目录下的abc.txt文件,在windows查看路径为H:\sparkTestDir\abc.txt,而在sc.textFile中path = "file:///H:\\sparkTestDir\\abc.txt"

若path为linux系统上执行,则path为HDFS的路径,path的格式为
hdfs://nameservice1/user/spark/abc.txt或者/user/spark/abc.txt
其中nameservice1为dfs.nameservices的名称,在hdfs-site.xml设置
  <property>
    <name>dfs.nameservices</name>
    <value>nameservice1</value>
  </property>
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值