基于docker搭建hadoop

最新推荐文章于 2024-05-12 10:03:23 发布

zhao-yan

最新推荐文章于 2024-05-12 10:03:23 发布

阅读量476

点赞数

分类专栏：大数据文章标签： docker hadoop linux

本文链接：https://blog.csdn.net/zy1314567/article/details/107313866

版权

大数据专栏收录该内容

1 篇文章 0 订阅

订阅专栏

基于docker搭建hadoop

介绍：使用ubuntu 16.04安装docker，并在docker上面配置hadoop集群
本文参考https://zhuanlan.zhihu.com/p/59758201

1 安装docker

安装docker

wget -qO- https://get.docker.com/ | sh

启动docker服务

sudo service docker start

2 docker拉取ubuntu镜像

创建虚拟网络，方便集群间进行通信

sudo docker network create --driver=bridge hadoop

拉取ubuntu16镜像

sudo docker pull ubuntu:16.04

创建一个ubuntu16容器

sudo docker run -it ubuntu:16.04 /bin/bash

3 安装JDK 1.8

换阿里源（可选）
- 修改文件 /etc/apt/sources.list

deb http://mirrors.aliyun.com/ubuntu/ xenial main
deb-src http://mirrors.aliyun.com/ubuntu/ xenial main

deb http://mirrors.aliyun.com/ubuntu/ xenial-updates main
deb-src http://mirrors.aliyun.com/ubuntu/ xenial-updates main

deb http://mirrors.aliyun.com/ubuntu/ xenial universe
deb-src http://mirrors.aliyun.com/ubuntu/ xenial universe
deb http://mirrors.aliyun.com/ubuntu/ xenial-updates universe
deb-src http://mirrors.aliyun.com/ubuntu/ xenial-updates universe

deb http://mirrors.aliyun.com/ubuntu/ xenial-security main
deb-src http://mirrors.aliyun.com/ubuntu/ xenial-security main
deb http://mirrors.aliyun.com/ubuntu/ xenial-security universe
deb-src http://mirrors.aliyun.com/ubuntu/ xenial-security universe

注：使用echo导入上面信息，如要换行符\n需要使用加上命令-e，如echo -e “deb http://mirrors.aliyun.com/ubuntu/ xenial main\ndeb-src …” > /etc/apt/sources.list 这里默认是-E，表示不转义。

更新源

apt update

安装JDk1.8（这里也可以下载官网的Oracle的JDK）

apt install openjdk-8-jdk

测试jdk安装：java -version

4 安装Scala

命令行安装

apt install scala

测试安装

scale

注：scale执行命令前需要添加冒号":"，如":help".

5 配置 SSH

集群间需要使用SSH互相通信

安装SSH

apt-get install openssh-server
apt-get install openssh-client

生成密钥，免密登录

cd ~
ssh-keygen -t rsa -P ""
cat .ssh/id_rsa.pub >> .ssh/authorized_keys

测试免密登录

ssh 127.0.0.1

配置SSH服务开机自启动

vim ~/.bashrc
// 在文件最下面添加一行
service ssh start

6 安装 Hadoop

下载hadoop

wget https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-3.2.1/hadoop-3.2.1.tar.gz

可以直接浏览器下载https://hadoop.apache.org/releases.html，如果下载失败可以换源：
https://mirrors.bfsu.edu.cn/apache/hadoop/common/hadoop-3.2.1/hadoop-3.2.1.tar.gz
https://mirror.bit.edu.cn/apache/hadoop/common/hadoop-3.2.1/hadoop-3.2.1.tar.gz
https://downloads.apache.org/hadoop/common/hadoop-3.2.1/hadoop-3.2.1.tar.gz

解压并重命名

tar -zxvf hadoop-3.2.1.tar.gz -C /usr/local/
cd /usr/local/
mv hadoop-3.2.1 hadoop

7 配置hadoop

编辑/etc/profile，在文件最后加入以下内容

#java
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
export JRE_HOME=${JAVA_HOME}/jre    
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib    
export PATH=${JAVA_HOME}/bin:$PATH
#hadoop
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export HADOOP_COMMON_HOME=$HADOOP_HOME 
export HADOOP_HDFS_HOME=$HADOOP_HOME 
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_YARN_HOME=$HADOOP_HOME 
export HADOOP_INSTALL=$HADOOP_HOME 
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native 
export HADOOP_CONF_DIR=$HADOOP_HOME 
export HADOOP_LIBEXEC_DIR=$HADOOP_HOME/libexec 
export JAVA_LIBRARY_PATH=$HADOOP_HOME/lib/native:$JAVA_LIBRARY_PATH
export HADOOP_CONF_DIR=$HADOOP_PREFIX/etc/hadoop
export HDFS_DATANODE_USER=root
export HDFS_DATANODE_SECURE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export HDFS_NAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root

使上述修改生效

source /etc/profile

修改/usr/local/hadoop/etc/hadoop/hadoop-env.sh

在文件最后追加以下内容
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root

修改/usr/local/hadoop/etc/hadoop/core-site.xml

将文件内容修改为以下内容，其中h01为主机名字，可在/etc/hosts中添加
<configuration>
    <property>
        <name>fs.default.name</name>
        <value>hdfs://h01:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/home/hadoop3/hadoop/tmp</value>
    </property>
</configuration>

修改/usr/local/hadoop/etc/hadoop/hdfs-site.xml

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>2</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>/home/hadoop3/hadoop/hdfs/name</value>
    </property>
    <property>
        <name>dfs.namenode.data.dir</name>
        <value>/home/hadoop3/hadoop/hdfs/data</value>
    </property>
</configuration>

修改/usr/local/hadoop/etc/hadoop/mapred-site.xml

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
    <property>
        <name>mapreduce.application.classpath</name>
        <value>
            /usr/local/hadoop/etc/hadoop,
            /usr/local/hadoop/share/hadoop/common/*,
            /usr/local/hadoop/share/hadoop/common/lib/*,
            /usr/local/hadoop/share/hadoop/hdfs/*,
            /usr/local/hadoop/share/hadoop/hdfs/lib/*,
            /usr/local/hadoop/share/hadoop/mapreduce/*,
            /usr/local/hadoop/share/hadoop/mapreduce/lib/*,
            /usr/local/hadoop/share/hadoop/yarn/*,
            /usr/local/hadoop/share/hadoop/yarn/lib/*
        </value>
    </property>
</configuration>

修改/usr/local/hadoop/etc/hadoop/yarn-site.xml

<configuration>
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>h01</value>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>

修改/usr/local/hadoop/etc/hadoop/workers

h01
h02
h03
h04

8 创建4个一样的容器

将上面配置的容器导出为镜像

sudo docker commit -m "myhadoop:v1" -a "user" fab4da838c2f myhadoop:v1

创建namenode，因为使用的是docker，所以需要将docker的可访问端口映射出来。docker内部容器需要互相访问，这里使用之前创建的虚拟网络hadoop。

sudo docker run -it --network hadoop -h "h01" --name "h01" -p 9870:9870 -p 8088:8088 myhadoop:v1 /bin/bash

创建datanode，这里需要加入上面创建的虚拟网络hadoop才能被namenode访问。如果使用端口映射需要更换映射出的端口，避免端口冲突。

sudo docker run -it --network hadoop -h "h02" --name "h02" -myhadoop:v1 /bin/bash
sudo docker run -it --network hadoop -h "h03" --name "h03" -myhadoop:v1 /bin/bash
sudo docker run -it --network hadoop -h "h04" --name "h04" -myhadoop:v1 /bin/bash

启动四个新创建的容器

sudo docker start 容器h01的id 容器h02的id 容器h03的id 容器h04的id

查看各个容器的ip，并配置四个容器的\etc\hosts文件

查看ip:
ifconfig
修改文件，在文件最下面加入以下内容，根据实际情况配置
172.19.0.2	h01
172.19.0.3	h02
172.19.0.4	h03
172.19.0.5	h04

进入容器使用exec，如果使用attach将会在执行exit时关闭容器
sudo docker exec -it 容器id /bin/bash

9 在h01中启动hadoop

格式化

切换目录
cd /usr/local/hadoop/bin
执行格式化
./hadoop namenode -format

注：如进行多次格式化，需要删除临时存储目录tmp和namenode元数据目录
tmp位置：core-site.xml配置文件中的hadoop.tmp.dir
元数据位置：hdfs-site.xml配置文件中的dfs.namenode.name.dir

启动集群

cd /usr/local/hadoop/sbin
./start-all.sh

关闭集群执行脚本./stop-all.sh

此时访问本机的 8088 与 9870 端口就可以看到监控信息了

查看分布式文件系统的状态

cd /usr/local/hadoop/bin
./hadoop dfsadmin -report

10 运行内置WordCount例子

把license作为需要统计的文件

cd /usr/local/hadoo
cat LICENSE.txt > file1.txt

在 HDFS 中创建 input 文件夹

cd /usr/local/hadoop/bin
./hadoop fs -mkdir /input

上传 file1.txt 文件到 HDFS 中

./hadoop fs -put ../file1.txt /input

查看 HDFS 中 input 文件夹里的内容

./hadoop fs -ls /input

运作 wordcount 例子程序

./hadoop jar ../share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.1.jar wordcount /input /output

查看 HDFS 中的 /output 文件夹的内容

./hadoop fs -ls /output

查看 part-r-00000 文件的内容

./hadoop fs -cat /output/part-r-00000

zhao-yan

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
基于docker搭建hadoop

基于docker搭建
复制链接

扫一扫

专栏目录

基于docker搭建hadoop

基于docker搭建hadoop

1 安装docker

2 docker拉取ubuntu镜像

3 安装JDK 1.8

4 安装Scala

5 配置 SSH

6 安装 Hadoop

7 配置hadoop

8 创建4个一样的容器

9 在h01中启动hadoop

10 运行内置WordCount例子

“相关推荐”对你有帮助么？