很多朋友使用LINUX不多,很多时候还是在windows上进行开发
所以 ,这个章节 我们来 在 windows上安装hadoop 运行环境
之前看过很多文章 都是在windows上模拟linux环境,需借助 Cygwin,但是 安装和使用Cygwin 的确很麻烦
这里 使用 hadooponwindows包 就可以在wwindows上运行起来了 。
工具和软件
1: windows 7 旗舰版系统
2. hadoop2.6.5 点我下载
3. hadooponwindows-master.zip (能支持在windows运行hadoop的工具包)
步骤:
1 . JDK 1.7 安装 并设置环境变量 JAVA_HOME
3. hadooponwindows-master.zip 点我下载
1. 解压 hadoop 2.6.5
2 .设置环境变量
HADOOP_HOME=F:\STUDY\hadoop\hadoop-2.6.5
设置 PATH , 把 bin 和sbin加入PATH
PATH=%PATH%;%HADOOP_HOME%\bin;%HADOOP_HOME%\sbin;
3. 解压 hadooponwindows-master.zip, 将bin目录(包含dll和 exe文件) 文件替换原来 hadoop目录下的bin
修改hadoop相关配置,共需要修改 5个文件
hadoop-env.cmd、 core-site.xml、 hdfs-site.xml、yarn.site.xml、 mapred-site.xml
1. 打开 hadoop-env.sh 设置JDK路径
# The java implementation to use.
set JAVA_HOME=D:\Progra~1\Java\jdk1.7.0_67
2. 编辑 core-site.xml
<configuration>
<property>
<name>fs.default.name</name> <!-- 指定HDFS 节点(namenode)的通信地址 -->
<value>hdfs://localhost:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name> <!-- 指定hadoop运行时产生文件的存储路径,非正常意义上的临时文件 -->
<value>/finder/hadoop/tmp</value>
</property>
</configuration>
3. 编辑 hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name> <!-- 设置hdfs副本数量 这里我们只有一台机器,那肯定副本就写1个-->
<value>1</value>
</property>
</configuration>
4. 编辑 mapred-site.xml
如果不存在mapred-site.xml : mapred-site.xml.template 需要重命名: mapred-site.xml.template 到 mapred-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name><!-- 通知框架MR使用YARN -->
<value>yarn</value>
</property> <property>
<name>mapred.job.tracker</name> <!-- ECLIPSE中配置 hadoop loacation中需要此端口,但是运行的时候可以不加-->
<value>hdfs://localhost:9003</value>
</property>
</configuration>
5. 编辑 yarn-site.xml
<configuration>
<!-- Site specific YARN configuration properties -->
<property>
<name>yarn.nodemanager.aux-services</name><!-- reducer取数据的方式是mapreduce_shuffle -->
<value>mapreduce_shuffle</value>
</property><property>
<name>yarn.resourcemanager.webapp.address</name> <!-- 资源管理WEB地址 最好设置,不设置可能 默认 8088端口不会启动 -->
<value>localhost:8088</value>
</property>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>ubuntu</value>
</property>
</configuration>
文件配置好后, 下面就可以运行了
运行前首先需要 格式化 HDFS文件系统
进入 bin目录
执行
hdfs namenode -format
执行成功后, 可以看到 hadoop.dir.tmp 指向的目录被初始化
现在可以启动hadoop了
进入 sbin目录
执行:
start-all.cmd
This script is Deprecated. Instead use start-dfs.sh and start-yarn.sh
当然以上的启动命令过时了,应该分别启动这2个命令 start-yarn.cmd start-dfs.cmd
修改hadoop相关配置,共需要修改 5个文件
hadoop-env.sh、 core-site.xml、 hdfs-site.xml、yarn.site.xml、 mapred-site.xml
1. 打开 hadoop-env.sh 设置JDK路径
# nano hadoop-env.sh
# The java implementation to use.
export JAVA_HOME=/usr/java/jdk1.7.0_76
2. 编辑 core-site.xml
# nano core-site.xml
<configuration>
<property>
<name>fs.default.name</name> <!-- 指定HDFS 节点(namenode)的通信地址 -->
<value>hdfs://localhost:9000</value> <!-- 注意端口不要被占用 -->
</property>
<property>
<name>hadoop.tmp.dir</name> <!-- 指定hadoop运行时产生文件的存储路径,非正常意义上的临时文件 -->
<value>/finder/hadoop/tmp</value>
</property>
</configuration>
3. 编辑 hdfs-site.xml
#nano hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name> <!-- 设置hdfs副本数量 这里我们只有一台机器,那肯定副本就写1个-->
<value>1</value>
</property>
</configuration>
4. 编辑 mapred-site.xml
如果不存在mapred-site.xml : mapred-site.xml.template 需要重命名: mv mapred-site.xml.template mapred-site.xml
# nano mapred-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name><!-- 通知框架MR使用YARN -->
<value>yarn</value>
</property>
</configuration>
5. 编辑 yarn-site.xml
# nano yarn-site.xml
<configuration>
<!-- Site specific YARN configuration properties -->
<property>
<name>yarn.nodemanager.aux-services</name><!-- reducer取数据的方式是mapreduce_shuffle -->
<value>mapreduce_shuffle</value>
</property><property>
<name>yarn.resourcemanager.webapp.address</name> <!-- 资源管理WEB地址 最好设置,不设置可能 默认 8088端口不会启动 -->
<value>localhost:8088</value>
</property>
</configuration>
文件配置好后, 下面就可以运行了
运行前首先需要 格式化 HDFS文件系统
进入 bin目录
执行
hdfs namenode -format
执行成功后, 可以看到 hadoop.dir.tmp 指向的目录被初始化
现在可以启动hadoop了
进入 sbin目录
执行:
start-all.cmd