windows上安装 hadoop （不使用Cygwin）

最新推荐文章于 2024-07-11 18:00:32 发布

cnstartech

最新推荐文章于 2024-07-11 18:00:32 发布

阅读量3.5k

点赞数

分类专栏：云计算大数据文章标签：网络互联网电信终端活动

本文链接：https://blog.csdn.net/wuhualong1314/article/details/7841140

版权

云计算大数据专栏收录该内容

6 篇文章 0 订阅

订阅专栏

很多朋友使用LINUX不多，很多时候还是在windows上进行开发

所以，这个章节我们来在 windows上安装hadoop 运行环境

之前看过很多文章都是在windows上模拟linux环境，需借助 Cygwin,但是安装和使用Cygwin 的确很麻烦

这里使用 hadooponwindows包就可以在wwindows上运行起来了。

工具和软件

1: windows 7 旗舰版系统

2. hadoop2.6.5 点我下载

3. hadooponwindows-master.zip (能支持在windows运行hadoop的工具包)

步骤：

1 . JDK 1.7 安装并设置环境变量 JAVA_HOME

2. Hadoop 2.6.5 点我下载

3. hadooponwindows-master.zip 点我下载

1. 解压 hadoop 2.6.5

2 .设置环境变量

HADOOP_HOME=F:\STUDY\hadoop\hadoop-2.6.5

设置 PATH ，把 bin 和sbin加入PATH

PATH=%PATH%;%HADOOP_HOME%\bin;%HADOOP_HOME%\sbin;

3. 解压 hadooponwindows-master.zip, 将bin目录(包含dll和 exe文件) 文件替换原来 hadoop目录下的bin

修改hadoop相关配置，共需要修改 5个文件

hadoop-env.cmd、 core-site.xml、 hdfs-site.xml、yarn.site.xml、 mapred-site.xml

1. 打开 hadoop-env.sh 设置JDK路径

# The java implementation to use.
set JAVA_HOME=D:\Progra~1\Java\jdk1.7.0_67

2. 编辑 core-site.xml

 
<configuration>
        <property>
                <name>fs.default.name</name> <!-- 指定HDFS 节点（namenode）的通信地址 -->
                <value>hdfs://localhost:9000</value>
        </property>
    <property>
                <name>hadoop.tmp.dir</name> <!-- 指定hadoop运行时产生文件的存储路径,非正常意义上的临时文件 -->
                <value>/finder/hadoop/tmp</value>
        </property>


</configuration>

3. 编辑 hdfs-site.xml

<configuration>
   <property>
        <name>dfs.replication</name> <!-- 设置hdfs副本数量  这里我们只有一台机器，那肯定副本就写1个-->
        <value>1</value>
   </property>
</configuration>

4. 编辑 mapred-site.xml

如果不存在mapred-site.xml ： mapred-site.xml.template 需要重命名： mapred-site.xml.template 到 mapred-site.xml

   <configuration>
   <property>
       <name>mapreduce.framework.name</name><!-- 通知框架MR使用YARN -->
       <value>yarn</value>
    </property>  <property>
       <name>mapred.job.tracker</name>  <!-- ECLIPSE中配置 hadoop loacation中需要此端口，但是运行的时候可以不加-->
       <value>hdfs://localhost:9003</value>
    </property>
</configuration>

5. 编辑 yarn-site.xml

<configuration>


<!-- Site specific YARN configuration properties -->


   <property>
       <name>yarn.nodemanager.aux-services</name><!-- reducer取数据的方式是mapreduce_shuffle -->
       <value>mapreduce_shuffle</value>
    </property><property>
      <name>yarn.resourcemanager.webapp.address</name> <!-- 资源管理WEB地址 最好设置，不设置可能 默认 8088端口不会启动 -->
      <value>localhost:8088</value>
   </property>
   <property>
       <name>yarn.resourcemanager.hostname</name>
       <value>ubuntu</value>
   </property>
</configuration>

文件配置好后，下面就可以运行了

运行前首先需要格式化 HDFS文件系统

进入 bin目录

执行

hdfs namenode -format

执行成功后，可以看到 hadoop.dir.tmp 指向的目录被初始化

现在可以启动hadoop了

进入 sbin目录

执行：

start-all.cmd

This script is Deprecated. Instead use start-dfs.sh and start-yarn.sh

当然以上的启动命令过时了，应该分别启动这2个命令 start-yarn.cmd start-dfs.cmd