docker安装hadoop集群

最新推荐文章于 2024-08-05 21:41:10 发布

每一个不曾起舞的日子，都是对生命的辜负

最新推荐文章于 2024-08-05 21:41:10 发布

阅读量1.4k

点赞数

分类专栏：软件实操文章标签：机器学习数据分析数据挖掘

本文链接：https://blog.csdn.net/weixin_44390164/article/details/121385280

版权

软件实操专栏收录该内容

14 篇文章 0 订阅

订阅专栏

1. 构建centos版本的镜像

1.1 创建目录，并在目录下创建dockerfile文件

mkdir centos-ssh-root
cd centos-ssh-root
vim dockerfile

dockerfile内容

# 选择已有的OS镜像作为基础
FROM centos:7.5.1804
# 镜像作者
MAINTAINER ljs
 
ENV TZ "Asia/Shanghai"
 
RUN yum install -y curl wget tar unzip vim
RUN yum install -y gcc gcc-c++ git make
 
# 安装openssh-server和sudo软件包,将sshd的UsePAM参数设置成no
RUN yum install -y openssh-server sudo
RUN sed -i 's/UsePAM yes/UsePAM no/g' /etc/ssh/sshd_config
 
# 安装open-clients
RUN yum install -y openssh-clients
 
# 添加测试用户root,密码root,将此用户添加至sudoers内
RUN echo "root:root" | chpasswd
RUN echo "root  ALL=(ALL)       ALL" >> /etc/sudoers
 
# 这两句比较特殊,必须要有,否则创建出来的容器sshd无法登录  
RUN ssh-keygen -t dsa -f /etc/ssh/ssh_host_dsa_key  
RUN ssh-keygen -t rsa -f /etc/ssh/ssh_host_rsa_key  
 
# 启动sshd服务并爆露22端口
RUN mkdir /var/run/sshd
EXPOSE 22
CMD ["/usr/sbin/sshd", "-D"]

1.2 在所创建目录下执行以下命令生成镜像

sudo docker build -t="ljs/centos-ssh-root" .;

2. 构建JDK的镜像

2.1 创建目录并创建dockerfile文件

mkdir centos-ssh-root-jdk
cd centos-ssh-root-jdk
vim dockerfile

dcokerfile内容

FROM liangsw/centos-ssh-root
ADD jdk-8u261-linux-x64.tar.gz /usr/local/
RUN mv /usr/local/jdk1.8.0_261 /usr/local/jdk-8u261
ENV JAVA_HOME /usr/local/jdk-8u261
ENV PATH $JAVA_HOME/bin:$PATH

将 jdk-8u261-linux-x64.tar.gz拷贝到当前目录

2.2 在所创建目录下执行以下命令生成镜像

sudo docker build -t="ljs/centos-ssh-root-jdk" .;

3. 构建Hadoop的镜像

3.1 创建目录并创建dockerfile文件

mkdir centos-root-hadoop
cd centos-root-hadoop
vim dockerfile

dcokerfile内容

FROM ljs/centos-ssh-root-jdk
ADD hadoop-3.2.1.tar.gz /usr/local/
RUN mv /usr/local/hadoop-3.2.1 /usr/local/hadoop
ENV HADOOP_HOME /usr/local/hadoop
ENV PATH $HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

将 hadoop-3.2.1.tar.gz拷贝当前目录

3.2 在所创建目录下执行以下命令生成镜像

sudo docker build -t="ljs/centos-root-hadoop" .;

4. 构建容器

sudo docker run --name hadoop-master --hostname master -d -P -p 50070:50070 -p 8088:8088 ljs/centos-root-hadoop
 
sudo docker run --name hadoop-slave1 --hostname slave1 -d -P ljs/centos-root-hadoop
 
sudo docker run --name hadoop-slave2 --hostname slave2 -d -P ljs/centos-root-hadoop
 
sudo docker run --name hadoop-slave3 --hostname slave3 -d -P ljs/centos-root-hadoop

5. 进入每个容器，为每个容器配置ssh登录

5. 1 开四个终端，每个终端进入一个容器内部

sudo docker exec -it hadoop-master /bin/bash

sudo docker exec -it hadoop-slave1 /bin/bash

sudo docker exec -it hadoop-slave2 /bin/bash

sudo docker exec -it hadoop-slave3 /bin/bash

5.2 在容器内部查看和添加各个容器的IP

vim /etc/hosts

每个容器添加的IP信息

172.17.0.12     master
172.17.0.13     slave1
172.17.0.14     slave2
172.17.0.15     slave3

5.3 在每个容器内输入以下命令生成秘钥

ssh-keygen -t rsa

一直按回车即可

5.4 在每个容器下输入以下命令设置ssh免密登录

ssh-copy-id -i localhost
ssh-copy-id -i master
ssh-copy-id -i slave1
ssh-copy-id -i slave2
ssh-copy-id -i slave3

测试是否可用ssh切换

ssh master
exit
ssh slave1
exit
ssh slave2
exit
ssh slave3
exit

6. 在master节点上进行以下配置

6.1 在master容器下执行

cd /usr/local/hadoop/etc/hadoop

6.2 vim hadoop-env.sh

export JAVA_HOME=/usr/local/jdk-8u261

export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root

6.3 vim cor-site.xml

<configuration>
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://master:9000</value>
  </property>
  <property>
    <name>hadoop.tmp.dir</name>
    <value>/usr/local/hadoop/tmp</value>
  </property>
  <property>
    <name>fs.trash.interval</name>
    <value>1440</value>
  </property>
</configuration>

6.4 vim hdfs-site.xml


 
<configuration>
    <property>
        <name>dfs.replication</name>
        <value>3</value>
    </property>
    <property>
        <name>dfs.permissions</name>
        <value>false</value>
    </property>
</configuration>

6.5 vim yarn-site.xml


<configuration>
<!-- Site specific YARN configuration properties -->
 
<property>
  <name>yarn.resourcemanager.address</name>
  <value>master:8032</value>
</property>
<property>
  <name>yarn.nodemanager.aux-services</name>
  <value>mapreduce_shuffle</value>
</property>
<property>
  <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
  <value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
<property>
  <name>yarn.resourcemanager.scheduler.address</name>
  <value>master:8030</value>
</property>
<property>
  <name>yarn.resourcemanager.resource-tracker.address</name>
  <value>master:8031</value>
</property>
<property>
  <name>yarn.resourcemanager.admin.address</name>
  <value>master:8033</value>
</property>
<property>
  <name>yarn.resourcemanager.webapp.address</name>
  <value>master:8089</value>
</property>
<property>
  <name>yarn.log-aggregation-enable</name>
  <value>true</value>
</property>
 
</configuration>

6.6 vim mapred-site.xml


<configuration>
  <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
  </property>
  <property>
    <name>mapreduce.jobhistory.address</name>
    <value>0.0.0.0:10020</value>
  </property>
  <property>
    <name>mapreduce.jobhistory.webapp.address</name>
    <value>0.0.0.0:19888</value>
  </property>
</configuration>

6.7 格式化NameNode

在master容器节点上执行

hadoop namenode -format

6.8 配置启用用户信息（在master容器下）

cd /usr/local/hadoop-3.2.1
vi ./sbin/start-dfs.sh  和 ./sbin/stop-dfs.sh
 
HDFS_NAMENODE_USER=root
HDFS_DATANODE_USER=root
HDFS_SECONDARYNAMENODE_USER=root
 
vi ./sbin/start-yarn.sh 和 ./sbin/stop-yarn.sh
 
YARN_RESOURCEMANAGER_USER=root
YARN_NODEMANAGER_USER=root
 
# 启动hadoop集群(nna容器)
 start-all.sh
 
 # nna容器查看进程
 jps