Hadoop集群搭建
博客资源:
Hadoop编译好的Linux安装包(2.7.4):
链接:https://pan.baidu.com/s/1hpwF6ZwiqXOq-bvTHFEExA
提取码:yx0v
前置工作
- 同步时间
- 设置主机名映射
- 配置ssh免密登录
- 配置防火墙(关闭防火墙)
- 安装JDK(之前有安装教程)
这几步之前在安装zookeeper集群的时候都有介绍,忘记的可以回顾一下我之前在Linux上安装zookeeper集群那篇博客。
注意点: 之前ssh免密登录貌似只设置了node-1 到node-2,没有设置node-1 到node-1,这个要设置一下。不然node-1自己调用自己的主机名映射的时候需要输入密码了。
还有node-1 到 node-3 也没有设置,这个顺带设置一下。 T.T
node-2 和 node-3 之前的免密登录看心情,心情好就想设置一下就设置一下,不好就算了。
下载hadoop安装包
-
首先进入Hadoop官网
-
点击下载
source:源码包
binary:发行安装包(我们可以直接下载这个进行安装,但是在运行时会有一些警告出现,)
我们从官网上下载下来的都是32位的,而我们创建的虚拟机是64位的,所以我们会下载对应版本的源码包,结合相关环境对其进行编译。为什么要编译hadoop源码包:
- 程序当中有一部分跟系统环境息息相关(比如文件读写 是win还是linux系统,是 64位还是 32位),要结合具体的系统环境下载源码进行编译。
- 当需要自定义源码当中的某些组件的时候 需要修改源码 然后要重新编译成安装包。
我之前有个编译好的Hadoop的安装包,所以直接用,所以没打算写编译流程,想照着这篇博客来的,直接下载后安装吧。
Hadoop目录结构
解压 hadoop-2.7.4-with-centos-6.7.tar.gz,目录结构如下:
bin:Hadoop 最基本的管理脚本和使用脚本的目录,这些脚本是 sbin 目录下管理脚本的基础实现,用户可以直接使用这些脚本管理和使用 Hadoop。
etc:Hadoop 配置文件所在的目录,包括 core-site,xml、hdfs-site.xml、mapred-site.xml 等从 Hadoop1.0 继承而来的配置文件和 yarn-site.xml 等Hadoop2.0 新增的配置文件。
include: 对外提供的编程库头文件(具体动态库和静态库在 lib 目录中),这些头文件均是用 C++定义的,通常用于 C++程序访问 HDFS 或者编写 MapReduce程序
lib: 该目录包含了 Hadoop 对外提供的编程动态库和静态库,与 include 目录中的头文件结合使用。
libexec: 各个服务对用的 shell 配置文件所在的目录,可用于配置日志输出、启动参数(比如 JVM 参数)等基本信息。
sbin:Hadoop 管理脚本所在的目录,主要包含 HDFS 和 YARN 中各类服务的启动/关闭脚本。
share: Hadoop 各个模块编译后的 jar 包所在的目录。
安装Hadoop
-
上传Hadoop的安装包,这个和之前zookeeper的安装类似
先进入 /export/server路径下,然后将安装包上传上来。
-
然后使用
tar zxvf hadoop-2.7.4-with-centos-6.7.tar.gz
解压Hadoop压缩包 -
可有可无操作:删除Hadoop的安装包,命令:
rm -rf hadoop-2.7.4-with-centos-6.7.tar.gz
Hadoop配置文件的修改 ★★★
Hadoop 安装主要就是配置文件的修改,一般在主节点进行修改,完毕后 scp下发给其他各个从节点机器。