基于docker搭建hadoop

基于docker搭建hadoop

介绍:使用ubuntu 16.04安装docker,并在docker上面配置hadoop集群
本文参考https://zhuanlan.zhihu.com/p/59758201

1 安装docker

  • 安装docker
wget -qO- https://get.docker.com/ | sh
  • 启动docker服务
sudo service docker start

2 docker拉取ubuntu镜像

  • 创建虚拟网络,方便集群间进行通信
sudo docker network create --driver=bridge hadoop
  • 拉取ubuntu16镜像
sudo docker pull ubuntu:16.04
  • 创建一个ubuntu16容器
sudo docker run -it ubuntu:16.04 /bin/bash

3 安装JDK 1.8

  • 换阿里源(可选)
    • 修改文件 /etc/apt/sources.list
deb http://mirrors.aliyun.com/ubuntu/ xenial main
deb-src http://mirrors.aliyun.com/ubuntu/ xenial main

deb http://mirrors.aliyun.com/ubuntu/ xenial-updates main
deb-src http://mirrors.aliyun.com/ubuntu/ xenial-updates main

deb http://mirrors.aliyun.com/ubuntu/ xenial universe
deb-src http://mirrors.aliyun.com/ubuntu/ xenial universe
deb http://mirrors.aliyun.com/ubuntu/ xenial-updates universe
deb-src http://mirrors.aliyun.com/ubuntu/ xenial-updates universe

deb http://mirrors.aliyun.com/ubuntu/ xenial-security main
deb-src http://mirrors.aliyun.com/ubuntu/ xenial-security main
deb http://mirrors.aliyun.com/ubuntu/ xenial-security universe
deb-src http://mirrors.aliyun.com/ubuntu/ xenial-security universe

注:使用echo导入上面信息,如要换行符\n需要使用加上命令-e,如echo -e “deb http://mirrors.aliyun.com/ubuntu/ xenial main\ndeb-src …” > /etc/apt/sources.list 这里默认是-E,表示不转义。

  • 更新源
apt update
  • 安装JDk1.8(这里也可以下载官网的Oracle的JDK)
apt install openjdk-8-jdk

测试jdk安装:java -version

4 安装Scala

  • 命令行安装
apt install scala
  • 测试安装
scale

注:scale执行命令前需要添加冒号":",如":help".

5 配置 SSH

集群间需要使用SSH互相通信

  • 安装SSH
apt-get install openssh-server
apt-get install openssh-client
  • 生成密钥,免密登录
cd ~
ssh-keygen -t rsa -P ""
cat .ssh/id_rsa.pub >> .ssh/authorized_keys
  • 测试免密登录
ssh 127.0.0.1
  • 配置SSH服务开机自启动
vim ~/.bashrc
// 在文件最下面添加一行
service ssh start

6 安装 Hadoop

  • 下载hadoop
wget https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-3.2.1/hadoop-3.2.1.tar.gz

可以直接浏览器下载https://hadoop.apache.org/releases.html,如果下载失败可以换源:
https://mirrors.bfsu.edu.cn/apache/hadoop/common/hadoop-3.2.1/hadoop-3.2.1.tar.gz
https://mirror.bit.edu.cn/apache/hadoop/common/hadoop-3.2.1/hadoop-3.2.1.tar.gz
https://downloads.apache.org/hadoop/common/hadoop-3.2.1/hadoop-3.2.1.tar.gz

  • 解压并重命名
tar -zxvf hadoop-3.2.1.tar.gz -C /usr/local/
cd /usr/local/
mv hadoop-3.2.1 hadoop  

7 配置hadoop

  • 编辑/etc/profile,在文件最后加入以下内容
#java
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
export JRE_HOME=${JAVA_HOME}/jre    
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib    
export PATH=${JAVA_HOME}/bin:$PATH
#hadoop
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export HADOOP_COMMON_HOME=$HADOOP_HOME 
export HADOOP_HDFS_HOME=$HADOOP_HOME 
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_YARN_HOME=$HADOOP_HOME 
export HADOOP_INSTALL=$HADOOP_HOME 
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native 
export HADOOP_CONF_DIR=$HADOOP_HOME 
export HADOOP_LIBEXEC_DIR=$HADOOP_HOME/libexec 
export JAVA_LIBRARY_PATH=$HADOOP_HOME/lib/native:$JAVA_LIBRARY_PATH
export HADOOP_CONF_DIR=$HADOOP_PREFIX/etc/hadoop
export HDFS_DATANODE_USER=root
export HDFS_DATANODE_SECURE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export HDFS_NAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root
  • 使上述修改生效
source /etc/profile
  • 修改/usr/local/hadoop/etc/hadoop/hadoop-env.sh
在文件最后追加以下内容
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root
  • 修改/usr/local/hadoop/etc/hadoop/core-site.xml
将文件内容修改为以下内容,其中h01为主机名字,可在/etc/hosts中添加
<configuration>
    <property>
        <name>fs.default.name</name>
        <value>hdfs://h01:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/home/hadoop3/hadoop/tmp</value>
    </property>
</configuration>
  • 修改/usr/local/hadoop/etc/hadoop/hdfs-site.xml
<configuration>
    <property>
        <name>dfs.replication</name>
        <value>2</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>/home/hadoop3/hadoop/hdfs/name</value>
    </property>
    <property>
        <name>dfs.namenode.data.dir</name>
        <value>/home/hadoop3/hadoop/hdfs/data</value>
    </property>
</configuration>
  • 修改/usr/local/hadoop/etc/hadoop/mapred-site.xml
<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
    <property>
        <name>mapreduce.application.classpath</name>
        <value>
            /usr/local/hadoop/etc/hadoop,
            /usr/local/hadoop/share/hadoop/common/*,
            /usr/local/hadoop/share/hadoop/common/lib/*,
            /usr/local/hadoop/share/hadoop/hdfs/*,
            /usr/local/hadoop/share/hadoop/hdfs/lib/*,
            /usr/local/hadoop/share/hadoop/mapreduce/*,
            /usr/local/hadoop/share/hadoop/mapreduce/lib/*,
            /usr/local/hadoop/share/hadoop/yarn/*,
            /usr/local/hadoop/share/hadoop/yarn/lib/*
        </value>
    </property>
</configuration>
  • 修改/usr/local/hadoop/etc/hadoop/yarn-site.xml
<configuration>
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>h01</value>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>
  • 修改/usr/local/hadoop/etc/hadoop/workers
h01
h02
h03
h04

8 创建4个一样的容器

  • 将上面配置的容器导出为镜像
sudo docker commit -m "myhadoop:v1" -a "user" fab4da838c2f myhadoop:v1
  • 创建namenode,因为使用的是docker,所以需要将docker的可访问端口映射出来。docker内部容器需要互相访问,这里使用之前创建的虚拟网络hadoop。
sudo docker run -it --network hadoop -h "h01" --name "h01" -p 9870:9870 -p 8088:8088 myhadoop:v1 /bin/bash
  • 创建datanode,这里需要加入上面创建的虚拟网络hadoop才能被namenode访问。如果使用端口映射需要更换映射出的端口,避免端口冲突。
sudo docker run -it --network hadoop -h "h02" --name "h02" -myhadoop:v1 /bin/bash
sudo docker run -it --network hadoop -h "h03" --name "h03" -myhadoop:v1 /bin/bash
sudo docker run -it --network hadoop -h "h04" --name "h04" -myhadoop:v1 /bin/bash
  • 启动四个新创建的容器
sudo docker start 容器h01的id 容器h02的id 容器h03的id 容器h04的id
  • 查看各个容器的ip,并配置四个容器的\etc\hosts文件
查看ip:
ifconfig
修改文件,在文件最下面加入以下内容,根据实际情况配置
172.19.0.2	h01
172.19.0.3	h02
172.19.0.4	h03
172.19.0.5	h04

进入容器使用exec,如果使用attach将会在执行exit时关闭容器
sudo docker exec -it 容器id /bin/bash

9 在h01中启动hadoop

  • 格式化
切换目录
cd /usr/local/hadoop/bin
执行格式化
./hadoop namenode -format

注:如进行多次格式化,需要删除临时存储目录tmp和namenode元数据目录
tmp位置:core-site.xml配置文件中的hadoop.tmp.dir
元数据位置:hdfs-site.xml配置文件中的dfs.namenode.name.dir

  • 启动集群
cd /usr/local/hadoop/sbin
./start-all.sh

关闭集群执行脚本./stop-all.sh

此时访问本机的 8088 与 9870 端口就可以看到监控信息了

  • 查看分布式文件系统的状态
cd /usr/local/hadoop/bin
./hadoop dfsadmin -report

10 运行内置WordCount例子

  • 把license作为需要统计的文件
cd /usr/local/hadoo
cat LICENSE.txt > file1.txt
  • 在 HDFS 中创建 input 文件夹
cd /usr/local/hadoop/bin
./hadoop fs -mkdir /input
  • 上传 file1.txt 文件到 HDFS 中
./hadoop fs -put ../file1.txt /input
  • 查看 HDFS 中 input 文件夹里的内容
./hadoop fs -ls /input
  • 运作 wordcount 例子程序
./hadoop jar ../share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.1.jar wordcount /input /output
  • 查看 HDFS 中的 /output 文件夹的内容
./hadoop fs -ls /output
  • 查看 part-r-00000 文件的内容
./hadoop fs -cat /output/part-r-00000
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 要基于Docker搭建Hadoop集群,您需要遵循以下步骤: 1. 安装Docker:您需要在所有节点上安装Docker。可以通过Docker官方文档来了解如何在您的操作系统上安装Docker。 2. 创建Docker镜像:您需要创建包含HadoopDocker镜像。您可以使用Dockerfile来创建镜像,并在其中安装所需的软件包。 3. 创建Docker容器:一旦您创建了Docker镜像,您需要在每个节点上创建Docker容器。您可以使用Docker命令来创建容器。 4. 配置Hadoop集群:您需要配置Hadoop集群,以便每个节点都能够与其他节点通信。您需要编辑Hadoop配置文件,如core-site.xml和hdfs-site.xml,并指定节点的IP地址和端口号。 5. 启动Hadoop集群:最后,您需要启动Hadoop集群。您可以使用启动脚本启动Hadoop集群。 在完成这些步骤后,您应该已经成功地在基于DockerHadoop集群上设置了分布式计算环境。 ### 回答2: 随着大数据技术的发展,hadoop已经成为了很多企业的首选,但是hadoop的部署和维护是一件非常繁琐的事情,需要很多经验和技巧。为了简化这个过程,很多人开始尝试将hadoop集群部署在docker容器中。 Docker是一个开源的容器化平台,可以轻松地部署和运行各种应用程序。Docker的容器可以在任何运行Docker的机器上运行,这使得hadoop的集群可以很容易地部署在任何地方。 基于docker搭建hadoop集群的步骤如下: 1. 安装Docker 首先需要在每台机器上安装Docker。安装过程可以参考Docker官方文档。 2. 创建docker镜像 在第一台机器上创建一个docker镜像,这个镜像可以包含我们需要的hadoop环境。 可以通过Dockerfile创建这个镜像,并且在 Dockerfile 中指定需要的软件包和配置。这个镜像可以包含hadoop,jdk等组件。 3. 部署容器 在第一台机器上使用这个docker镜像创建一个容器,这个容器就是hadoop的NameNode。可以指定hadoop的配置文件,并且可以将hadoop的数据目录挂载到本地硬盘上。 同时,在其他机器上也创建容器,这些容器就是hadoop的DataNode。 4. 启动hadoop服务 启动NameNode容器后,需要进入容器内部,启动hadoop服务。使用hadoop dfsadmin -report 命令可以查看hadoop集群的状态。 5. 配置hadoop集群 hadoop的配置文件可以在NameNode容器内修改,也可以将配置文件挂载到容器内部。配置文件的修改可以通过修改Dockerfile或者手动修改容器内的文件来完成。 一些hadoop集群相关的配置信息需要在hadoop-env.sh,hdfs-site.xml和core-site.xml等文件中进行修改。 6. 测试hadoop集群 在hadoop集群启动后,可以使用hdfs dfs -ls / 命令来测试hadoop集群的正常运行。 基于docker搭建hadoop集群的优点在于部署和维护都非常方便,同时可以快速地扩展集群。Docker容器可以很容易地在不同的主机上运行,并且可以保证集群的统一性。 ### 回答3: Docker是一种轻量级的容器化技术,可以方便快捷地搭建、运行、迁移和管理软件应用,而Hadoop是目前广泛应用于大数据处理和分析的开源平台,使用Hadoop可以有效地解决数据分析和处理的瓶颈问题。基于Docker搭建Hadoop集群,可以实现快速部署与运维,提高集群的可维护性和可扩展性,同时也可以降低运行成本。 以下是基于Docker搭建Hadoop集群的步骤: 1. 安装Docker:首先需要在主机上安装Docker运行环境。 2. 下载Hadoop镜像:从Docker Hub上下载Hadoop镜像,并创建一个自定义的网络。 3. 创建Hadoop节点容器:创建一个Hadoop节点容器,并在其内部配置Hadoop环境变量。 4. 配置Hadoop:配置Hadoop集群的核心配置文件core-site.xml、hdfs-site.xml、yarn-site.xml和mapred-site.xml等。 5. 启动Hadoop集群:使用start-dfs.sh和start-yarn.sh脚本启动Hadoop集群,查看配置是否生效。 6. 部署应用程序:将应用程序放入Hadoop集群中的HDFS文件系统,使用yarn命令启动应用程序。 7. 监控和维护:使用Hadoop的监控和管理工具,对集群进行监控和维护。 基于Docker搭建Hadoop集群具有很多优点,如环境准备简单、扩展性强、可移植性高、资源利用率高等,同时也需要注意安全性和稳定性的问题。在实际应用中,可以根据实际需求,对集群进行灵活配置和管理,以便更好地支持大数据处理和分析任务的需求。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值