第一步:首先安装java的环境
安装教程请参考:https://blog.csdn.net/wplblog/article/details/113614644因为下载很耗时,这里我提供一下,我下载好的jdk1.8
链接:https://pan.baidu.com/s/1Vx1DNJPooEaLNuch3l83wQ 提取码:ppge
第二步:下载hadoop,要下载与 jdk 对应版本的hadoop。对应版本参考如下,下面是我下载好的hadoop压缩包。
hadoop-3.1.3 JDK 1.8
hadoop-2.10.2 JDK 1.7 or 1.8
hadoop-2.9.2 JDK 1.7 or 1.8
hadoop-2.8.2 JDK 1.7+
hadoop-2.7.1 JDK 1.7+
链接:https://pan.baidu.com/s/1iUTfIS4Ie-S3w2OVKhKfoA 提取码:51ps
如果想自己下载hadoop,请前往官网地址:http://hadoop.apache.org/releases.html
第三步:安装hadoop
将下载好的hadoop3.1.4压缩包,解压到磁盘目录。我解压到了D盘:
第四步:配置hadoop环境变量
下载window util for hadoop
第五步:修改hadoop配置文件,配置文件主要是四个。路径是:D:\hadoop3.1.4\etc\hadoop 下。
文件名分别是:core-site.xml 、 hdfs-site.xml、 mapred-site.xml、yarn-site.xml
修改 core-site.xml 文件,修改内容如下:
<configuration>
<!--指定namenode的地址-->
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9009</value>
</property>
<!--用来指定使用hadoop时产生文件的存放目录-->
<property>
<name>hadoop.tmp.dir</name>
<value>file:/D:/hadoop3.1.4/tmp</value>
</property>
<property>
<!--用来设置检查点备份日志的最长时间-->
<name>fs.checkpoint.period</name>
<value>3600</value>
</property>
</configuration>
修改 hdfs-site.xml 文件 这里面的两个路径 namenode 和 datanode 是自己创建的目录
创建namenode及datanode目录,用来保存数据
<configuration>
<!--指定hdfs保存数据的副本数量-->
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
<!--指定hdfs中namenode的存储位置-->
<property>
<name>dfs.namenode.name.dir</name>
<value>/D:/hadoop3.1.4/data/namenode</value>
</property>
<!--指定hdfs中datanode的存储位置-->
<property>
<name>dfs.datanode.data.dir</name>
<value>/D:/hadoop3.1.4/data/datanode</value>
</property>
</configuration>
修改 mapred-site.xml 文件
<configuration>
<!--告诉hadoop以后MR(Map/Reduce)运行在YARN上-->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
修改 yarn-site.xml 文件
<configuration>
<!--nomenodeManager获取数据的方式是shuffle-->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
<property>
<name>yarn.scheduler.minimum-allocation-mb</name>
<value>1024</value>
</property>
<property>
<name>yarn.nodemanager.resource.memory-mb</name>
<value>4096</value>
</property>
<property>
<name>yarn.nodemanager.resource.cpu-vcores</name>
<value>2</value>
</property>
<!--指定Yarn的老大(ResourceManager)的地址-->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>master</value>
</property>
<!--Yarn打印工作日志-->
<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>
<property>
<name>yarn.log-aggregation.retain-seconds</name>
<value>604800</value>
</property>
</configuration>
第六步:试着运行hadoop
打开 终端 wind + R
1、格式化namenode,执行命令:hadoop namenode -format 结果如下图:
2、启动或停止hadoop , 进入到 hadoop 的 sbin 目录
执行命令:start-all.cmd(启动) 或者 stop-all.cmd(停止)
输入start-all.cmd 有可能会提示,如下截图:意思是 start-all.cmd已经启用了。建议使用 start-dfs.cmd 和 start-yarn.cmd
第七步:执行 jps 命令,查看都有哪些启动成功了,如图所示:只有NameNode 启动成功了,还有三个没有启动成功
文章暂时至此结束,我也是刚接触hadoop,目前在研究。等亲测都启动成功了,会更新文章。