基于Docker搭建Hadoop集群之升级版


一. 项目介绍

Hadoop打包到Docker镜像中,就可以快速地在单个机器上搭建Hadoop集群,这样可以方便新手测试和学习。

如下图所示,Hadoop的master和slave分别运行在不同的Docker容器中,其中hadoop-master容器中运行NameNode和ResourceManager,hadoop-slave容器中运行DataNode和NodeManager。NameNode和DataNode是Hadoop分布式文件系统HDFS的组件,负责储存输入以及输出数据,而ResourceManager和NodeManager是Hadoop集群资源管理系统YARN的组件,负责CPU和内存资源的调度。

之前的版本使用serf/dnsmasq为Hadoop集群提供DNS服务,由于Docker网络功能更新,现在并不需要了。更新的版本中,使用以下命令为Hadoop集群创建单独的网络:

     
     
sudo docker network create --driver=bridge hadoop

然后在运行Hadoop容器时,使用”–net=hadoop”选项,这时所有容器将运行在hadoop网络中,它们可以通过容器名称进行通信。

项目更新要点:

  • 去除serf/dnsmasq
  • 合并Master和Slave镜像
  • 使用kiwenlau/compile-hadoop项目编译的Hadoo进行安装
  • 优化Hadoop配置

二. 3节点Hadoop集群搭建步骤

1. 下载Docker镜像
     
     
sudo docker pull kiwenlau/ hadoop: 1.0
2. 下载GitHub仓库
     
     
git clone https://github.com/kiwenlau/hadoop-cluster-docker
3. 创建Hadoop网络
     
     
sudo docker network create --driver=bridge hadoop
4. 运行Docker容器
     
     
cd hadoop- cluster-docker
./start-container. sh

运行结果

     
     
start hadoop- master container...
start hadoop-slave1 container...
start hadoop-slave2 container...
root@hadoop- master:~ #
  • 启动了3个容器,1个master, 2个slave
  • 运行后就进入了hadoop-master容器的/root目录
5. 启动hadoop
     
     
./ start-hadoop.sh
6. 运行wordcount
     
     
./ run -wordcount.sh

运行结果

     
     
input file1 .txt:
Hello Hadoop
input file2 .txt:
Hello Docker
wordcount output:
Docker 1
Hadoop 1
Hello 2

Hadoop网页管理地址:

192.168.59.1为运行容器的主机的IP。

三. N节点Hadoop集群搭建步骤

1. 准备
  • 参考第二部分1~3:下载Docker镜像,下载GitHub仓库,以及创建Hadoop网络
2. 重新构建Docker镜像
     
     
./resize- cluster. sh 5
  • 可以指定任意N(N>1)
3. 启动Docker容器
     
     
./start-container .sh 5
  • 与第2步中的N保持一致。
4. 运行Hadoop
  • 参考第二部分5~6:启动Hadoop,并运行wordcount。


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值