spark在windows本地调试

最新推荐文章于 2022-07-01 08:40:27 发布

wmky_kk

最新推荐文章于 2022-07-01 08:40:27 发布

阅读量3.8k

点赞数 1

分类专栏： spark 文章标签： windows spark 程序开发本地调试

本文链接：https://blog.csdn.net/youchuikai/article/details/67049801

版权

spark 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

spark程序在windows下本地调试

前言：

在最初接触spark分布式平台程序开发时，如何快速的调试spark应用程序，提高开发效率尤为重要。正所谓兵马未动，粮草先行。因此接下来开始准备高效的spark开发环境。

软件下载

以下5个安装包都汇总在个人百度网盘中，请直接下载。
链接: http://pan.baidu.com/s/1i50uJXF 密码: qxic

软件安装与配置

配置位置在：
Control Panel\System and Security\System 
--> Advanced system settings 
--> Advance --> Environment Variables  --> System variables

jdk配置
- JAVA_HOME = E:\DevTool\Java\jdk1.7.0_80
scala配置
- SCALA_HOME = E:\DevTool\scala-2.10.6
maven配置
- MAVEN_HOME = E:\DevTool\apache-maven-3.0.4
hadoop配置
- HADOOP_HOME = E:\DevTool\hadoop-common-2.2.0-bin-master
spark配置
- SPARK_HOME = E:\DevTool\spark-1.6.0-bin-hadoop2.6
终极path配置
- %JAVA_HOME%\bin;%SCALA_HOME%\bin;%MAVEN_HOME%\bin;%SPARK_HOME%\bin;%HADOOP_HOME%\bin;

测试spark windows是否安装成功？

Step1：在H:\wmky_kk\Documents\0TempFiles新建一个sparkTestFile.txt文件内容为：
kaikai spark
hadoop
suli hadoop
Step2：Win+R快捷键弹出框中输入cmd，接在在dos命令终端中输入spark-shell
Step3：scala> 输入以下内容

sc.textFile("file:///H:\\wmky_kk\\Documents\\0TempFiles\\SparkTestFile.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_ + _).collect

若结果输出如下内容，说明spark在本地调试已经成功安装。

res0: Array[(String,int)] = Array((kaikai,1),(spark,1),(hadoop,2),(suli,1))

intellij构建maven项目–sparkTest

暂时直接附上github地址，spark程序windows本地调试代码在com.juanpi.spark.local.ActiveJpid代码中。
https://github.com/wmky/sparkTest.git

PS：sc.textFile(path)方法使用
若path为windows下路径,H盘下sparkTestDir目录下的abc.txt文件，在windows查看路径为H:\sparkTestDir\abc.txt,而在sc.textFile中path = "file:///H:\\sparkTestDir\\abc.txt"

若path为linux系统上执行，则path为HDFS的路径，path的格式为
hdfs://nameservice1/user/spark/abc.txt或者/user/spark/abc.txt
其中nameservice1为dfs.nameservices的名称，在hdfs-site.xml设置
  <property>
    <name>dfs.nameservices</name>
    <value>nameservice1</value>
  </property>