最近在windows下搭建spark遇见了很多问题。
我做的工作:
- 从安装spark开始就开始报错,在我spark装好之后,我在管理员窗口测试spark-shell,这个情况下问题我想大家都知道,spark是基于hadoop的,所以我们要安装hadoop。
- 安装hadoop我们都知道版本对应很重要,要不就白安装了,我安装spark安装的是
spark-2.3.0-bin-hadoop2.6.tgz
版本的,但是我安装hadoop的时候安装的确是hadoop-3.0.1.tar.gz
,我其实已经猜到可能问题出在这里,但是我依然按照安装包里面的环境都安装了。 - 问题来了,我安装好hadoop环境变量之后,测试
hadoop version
显示正常,命令行给出了版本号和一些正常的输出,但是这个时候我再次输入spark-shell
的时候,出现错误,这个正常,因为在hadoop的bin目录下缺少winutils.exe文件,我按照提示放了进去,然后继续spark-shell
,仍然错误???我很不解。 - 惯例继续搜索错误,我跟据提供的下载winutils的连接,下载版本的bin目录全部替换,这个时候出现了问题,因为你替换的时候发现没有hadoop-3.0.1版本的,怎么办,找一个相邻的替换试试吧。结果仍然不行。
- 找到解决方法,将winutils.exe这个文件的路径放到系统变量classpath里面,没办法试试把,说不定能行,结果还是不行。这个时候我开始对我之前的困惑肯定起来,hadoop安装正常,spark安装正常,但是测试spark-shell依然不行,依然报错
hadoop-Failed to locate the winutils binary in the hadoop binary path,
和空指针找不到winutils 文件。 - 重新安装hadoop选择版本按照提示的内容
spark-2.3.0-bin-hadoop2.6.tgz
,spark给的不清楚吗??是的,我们就去找hadoop2.6去安装。同样的在进行hadoop2.6安装的时候还需要将这个目录下的bin替换https://github.com/steveloughran/winutils
这个是涵盖很多版本的winutils的下载路径,我们不用找到winutils放进我们原来的bin里面,只需要完整替换对应版本的bin就可以了。 - 如果还有问题可以留言!