Windows下安装spark-hadoop步骤

最新推荐文章于 2024-07-15 07:15:00 发布

xujingpilot

最新推荐文章于 2024-07-15 07:15:00 发布

阅读量1.8k

点赞数 2

分类专栏： spark

本文链接：https://blog.csdn.net/xujingpilot/article/details/104322151

版权

spark 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

前言

本章将介绍如何在Windows下实现spark环境搭建。

本章概要

1、版本说明

2、环境准备：

jdk配置；
spark安装与配置；
hadoop安装与配置；
IDEA的安装与配置

版本说明

jdk：1.8
spark：2.4.5
hadoop：2.7.1

我把的安装软件的放到云盘了，链接：https://pan.baidu.com/s/1SLdfe40SZx9FjRl_09_beQ
提取码：tp7p

环境准备

A、JDK1.8

1.下载jdk,官网地址:https://www.oracle.com/technetwork/java/javase/downloads/index.html
1.1、选择 jdk1.8 版本，其他版本差不多一样的步骤：

1.2、下载适用于自己的电脑的 jdk

2、安装
它会默认安装在 C 盘，也可以自己修改安装位置。
包含 jre
3、配置路径信息

配置 JAVA_HOME，路径为你安装的 jdk 位置
配置 JRE_HOME，路径为你安装的 jre 位置
配置 CLASSPATH，路径为：%JAVA_HOME%\lib;%JAVA_HOME%\lib\tool.jar中间有一个分号。
配置 Path，路径为：%JAVA_HOME%\bin、%JRE_HOME%\bin

4、结果
打开命令提示符 cmd，输入 java -version，即可查看安装版本是否安装成功。

B、spark

从官网下载http://spark.apache.org/downloads.html ，我下的文件是spark-2.4.5-bin-hadoop2.7，然后解压到文件夹，注意的是文件夹命名中不能有空格，例如我是D:\spark\spark-2.4.5-bin-hadoop2.7，然后配置环境变量并添加到Path变量中（%SCALA_HOME%\bin），和JDK1.8一样.

C、hadoop

1.安装前需要准备的文件
需要先去官网下载hadoop，我下载的版本是2.7.1，但下载完的hadoop是不能直接在Windows上运行的，需要替换bin和etc两个文件夹，替换成专门为Windows下运行而编译的对应版本的bin和etc文件夹
可以在csdn下载中下载：https://download.csdn.net/download/eagleuniversityeye/11074242
也可以去官网先下载hadoop，然后去GitHub下载hadooponwindows。hadoop官网，hadooponwindows GitHub下载地址是https://github.com/sardetushar/hadooponwindows

2.配置hadoop环境变量
java的环境变量配置我在这里就不多说了，说下hadoop环境变量配置
右键我的电脑->属性->左边任务栏高级系统设置->环境变量
在系统变量里新建HADOOP_HOME，设置变量值为hadoop地址，再将HADOOP_HOME添加到PATH中（以下两步很重要，没有的话spark能启动，但Hadoop会一直报错：Unable to load native-hadoop library for your platform... using builtin-java classes where applicable）

3.修改hadoop配置
第一步：替换文件
将从官网下载的hadoop2.7.1中的bin和etc两个文件夹删除，使用hadooponwindows中的bin和etc代替
第二步：创建缺失的文件夹并将其配置到配置文件中
在hadoop根目录下创建两个文件夹data和tmp
在data文件夹下再创建连个子文件夹datanode和namenode

打开根目录下的etc/hadoop/hdfs-site.xml文件
修改dfs.namenode.name.dir和dfs.datanode.name.dir两个属性的值，改为刚刚创建的两个文件夹datanode和namenode的绝对路径（注意不能直接把在Windows下的路径复制粘贴，路径URL用的是斜杠不是反斜杠，而且前面还要加一个斜杠）然后保存退出

第三步：在hadoop-env.cmd中修改Java虚拟机位置
打开根目录下的etc/hadoop/hadoop-env.cmd文件
找到下图画出的配置，将set JAVA_HOME的值修改为你的Java虚拟机的绝对路径，如果路径中含有Program Files需要用PROGRA~1替换
第四步：复制hadoop.dll文件到指定目录
将根目录下的bin文件夹中的hadoop.dll文件复制到C:\Windows\System32文件夹下