特注:windows下开发spark不需要在本地安装hadoop,但是需要winutils.exe、hadoop.dll等文件,前提是你已经安装了eclipse、maven、jdk等软件
spark支持jdk版本建议是1.8及以上,如果开发spark建议将jdk编译版本设置为1.8
我选择的spark是spark-1.4.0-bin-hadoop2.6.tgz,故以该版本为例
第一步:下载spark-1.4.0-bin-hadoop2.6.tgz到本地,并解压在本地目录
地址为:http://spark.apache.org/downloads.html
第二步:下载windows下hadoop工具包(分为32位和64位的),在本地新建一个hadoop目录,必须有 bin目录例如:D:\spark\hadoop-2.6.0\bin
然后将winutil等文件放在bin目录下
地址:https://github.com/sdravida/hadoop2.6_Win_x64/tree/master/bin
第三步:配置hadoop和spark的环境变量:
HADOOP_HOME 例如:D:\spark\hadoop-2.6.0
SPARK_HOME
path中加入spark和hadoop
至此,在cmd命令下输入spark-shell 至此windows下配置ok了
搭建自己的spark maven项目hello world程序
对于已经安装了eclipse环境的程序员来说,不用再单独安装saprk的开发环境,由于spark是基于scala语言的,所以如果要想看源代码,需要安装scala的eclipse插件
第一步:安装scala的eclipse插件
地址:http://download.scala-ide.org/sdk/lithium/e44/scala211/stable/site