安装Hadoop要在java环境下才能操作,这里不再细说。
有了java环境,先去官网选择2.6.0Linux版本下载下来,然后解压到/usr目录下,配置好Hadoop的环境变量,PATH要配置bin目录和sbin两个目录,然后source /etc/profile;这里Hadoop安装配置第一步就完成了。
接下来就是配置Hadoop相关的参数信息:
进入$HADOOP_HOME/etc/hadoop/目录,hadoop需要配置一下几个文件:
hadoop-2.6.0/etc/hadoop/hadoop-env.sh
hadoop-2.6.0/etc/hadoop/core-site.xml
hadoop-2.6.0/etc/hadoop/hdfs-site.xml
hadoop-2.6.0/etc/hadoop/mapred-site.xml
hadoop-2.6.0/etc/hadoop/yarn-site.xml
hadoop-2.6.0/etc/hadoop/yarn-env.sh
1、hadoop-2.6.0/etc/hadoop/hadoop-env.sh
修改该文件中的java环境,将java环境路径加进去
export JAVA_HOME=/usr/java/jdk1.8.0_162
2、hadoop-2.6.0/etc/hadoop/core-site.xml
<configuration>
<!-- 指定HDFS老大(namenode)的通信地址 -->
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
<!-- 指定hadoop运行时产生文件的存储路径 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/hadoop/tmp</value>
</property>
</configuration>
3、hadoop-2.6.0/etc/hadoop/hdfs-site.xml
<configuration>
<property>
<name>dfs.name.dir</name>
<value>/usr/hadoop/hdfs/name</value>
<description>namenode上存储hdfs名字空间元数据 </description>
</property>
<property>
<name>dfs.data.dir</name>
<value>/usr/hadoop/hdfs/data</value>
<description>datanode上数据块的物理存储位置</description>
</property>
<!-- 设置hdfs副本数量 -->
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
第一次启动hdfs需要格式化
在hadoop文件夹下执行 ./bin/hdfs namenode -format命令进行格式化
hdfs启动:start-dfs.sh hdfs停止命令:stop-dfs.sh
4、hadoop-2.6.0/etc/hadoop/mapred-site.xml
配置/usr/hadoop/etc/hadoop/mapred-site.xml 。这里注意一下,hadoop里面默认是mapred-site.xml.template 文件,如果配置yarn,把mapred-site.xml.template 重命名为mapred-site.xml :mv mapred-site.xml.template mapred-site.xml
然后配置confiuration标签
<configuration>
<!-- 通知框架MR使用YARN -->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
5、hadoop-2.6.0/etc/hadoop/yarn-site.xml
配置hadoop-2.6.0/etc/hadoop/yarn-site.xml:
<configuration>
<!-- reducer取数据的方式是mapreduce_shuffle -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
接下来启动yarn:start-yarn.sh 停止yarn:stop-yarn.sh
启动dfs:start-dfs.sh 停止dfs:stop-dfs.sh
命令行输入jps查看是否有ResourceManager、 NodeManager的进程(yarn的进程),和NameNode、DataNode进程(hdfs的进程);如果有就说明Hadoop配置好了
浏览器输入:Hadoop的地址:8088 查看Hadoop的mapreduce任务
Hadoop的地址:50070 查看集群、节点、状态等数据