hadoop完全分布式搭建以及试运行

最新推荐文章于 2024-07-09 09:58:57 发布

sj天问

最新推荐文章于 2024-07-09 09:58:57 发布

阅读量263

点赞数 1

分类专栏： Linux 文章标签： hadoop

本文链接：https://blog.csdn.net/weixin_44314681/article/details/109033804

版权

Linux 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

完全分布式运行模式

1）分析：
（1）准备3台客户机（关闭防火墙、静态ip、主机名称）
（2）安装JDK
（3）配置环境变量
（4）安装Hadoop
（5）配置环境变量
（6）配置集群
（7）单点启动
（8）配置ssh
（9）群起并测试集群

编写分发脚本

（1）scp定义：
scp可以实现服务器与服务器之间的数据拷贝。（from server1 to server2）
（2）基本语法
scp -r $p d i r /$ fname $u s e r @ h a d o o p$ host: $p d i r /$ fname
命令递归要拷贝的文件路径/名称目的用户@主机:目的路径/名称
（3）案例实操
前提：在 hadoop102 hadoop103 hadoop104 都已经创建好的 /opt/module
/opt/software 两个目录，并且已经把这两个目录修改为atguigu:atguigu
（a）在hadoop102上，将hadoop102中/opt/module目录下的软件拷贝到hadoop103上。

[atguigu@hadoop102 /]$ scp -r /opt/module  atguigu@hadoop103:/opt/module

（b）在hadoop104上，将hadoop102服务器上的/opt/module目录下的软件拷贝到hadoop104上。

[atguigu@hadoop104 opt]$ scp -r atguigu@hadoop102:/opt/module /opt/module

（c）在hadoop103上操作将hadoop102中/opt/software目录下的软件拷贝到hadoop104上。

[atguigu@hadoop103 opt]$ scp -r atguigu@hadoop102:/opt/software 
atguigu@hadoop104:/opt/software

2）rsync 远程同步工具
（1）rsync定义
rsync主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点。
rsync和scp区别：用rsync做文件的复制要比scp的速度快，rsync只对差异文件做更新。scp是把所有文件都复制过去。
（2）基本语法
rsync -av $p d i r /$ fname $u s e r @ h a d o o p$ host: $p d i r /$ fname
命令选项参数要拷贝的文件路径/名称目的用户@主机:目的路径/名称
选项参数说明
选项功能
-a 归档拷贝
-v 显示复制过程

3）案例实操
（a）把hadoop102机器上的/opt/software目录同步到hadoop103服务器的/opt/software目录下

[atguigu@hadoop102 opt]$ rsync -av /opt/software/ atguigu@hadoop103:/atguigu /software

3）xsync集群分发脚本
（1）需求：循环复制文件到所有节点的相同目录下:
（2）期望脚本：基于rsync技术将文件从一个节点同步到其他所有节点
xsync 要同步的文件名称
（3）脚本实现
在/home/atguigu目录下创建bin目录，并在bin目录下创建xsync文件
说明：在/home/atguigu/bin这个目录下存放的脚本，atguigu用户可以在系统任何
地方直接执行。因为/home/atguigu/bin在系统的PATH环境变量中。

[atguigu@hadoop101 ~] pwd
/home/atguigu
[atguigu@hadoop101 ~] mkdir  bin 
[atguigu@hadoop101 ~] cd bin 
[atguigu@hadoop101 bin] touch xsync
[atguigu@hadoop101 bin] vim xsync

#!/bin/bash
#1. 判断参数个数
if [ $# -lt 1 ]
then
  echo Not Enough Arguement!
  exit;
fi
#2. 遍历集群所有机器
for host in hadoop102 hadoop103 hadoop104
do
  echo ====================  $host  ====================
  #3. 遍历所有目录，挨个发送
  for file in $@
  do
    #4 判断文件是否存在
    if [ -e $file ]
    then
      #5. 获取父目录
      pdir=$(cd -P $(dirname $file); pwd)
      #6. 获取当前文件的名称
      fname=$(basename $file)
      ssh $host "mkdir -p $pdir"
      rsync -av $pdir/$fname $host:$pdir
    else
      echo $file does not exists!
    fi
  done
done

（b）修改脚本 xsync 具有执行权限
chmod +x xsync
（c）测试脚本
xsync /home/atguigu/xsync

集群配置

核心配置文件
（a）配置core-site.xml

cd $HADOOP_HOME/etc/hadoop
vim core-site.xml

<!-- 指定NameNode的地址 -->
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://hadoop102:8020</value>
</property>
<!-- 指定hadoop数据的存储目录  
      
      官方配置文件中的配置项是hadoop.tmp.dir ,用来指定hadoop数据的存储目录,此次配置用的hadoop.data.dir是自己定义的变量， 因为在hdfs-site.xml中会使用此配置的值来具体指定namenode 和 datanode存储数据的目录

-->
    <property>
        <name>hadoop.data.dir</name>
        <value>/opt/module/hadoop-3.1.3/data</value>
</property>



<!-- 下面是兼容性配置，先跳过 -->
<!-- 配置该atguigu(superUser)允许通过代理访问的主机节点 -->
    <property>
        <name>hadoop.proxyuser.atguigu.hosts</name>
        <value>*</value>
</property>
<!-- 配置该atguigu(superuser)允许代理的用户所属组 -->
    <property>
        <name>hadoop.proxyuser.atguigu.groups</name>
        <value>*</value>
</property>
<!-- 配置该atguigu(superuser)允许代理的用户-->
    <property>
        <name>hadoop.proxyuser.atguigu.users</name>
        <value>*</value>
    </property>

（3）HDFS配置文件
（a）配置hdfs-site.xml

vim hdfs-site.xml

<!-- 指定副本数  -->
<property>
  <name>dfs.replication</name>
  <value>3</value>
</property>

<!-- 指定NameNode数据的存储目录 -->
  <property>
    <name>dfs.namenode.name.dir</name>
    <value>file://${hadoop.data.dir}/name</value>
  </property>
 <!-- 指定Datanode数据的存储目录 -->

  <property>
    <name>dfs.datanode.data.dir</name>
    <value>file://${hadoop.data.dir}/data</value>
  </property>
    
   <!-- 指定SecondaryNameNode数据的存储目录 -->

    <property>
    <name>dfs.namenode.checkpoint.dir</name>
    <value>file://${hadoop.data.dir}/namesecondary</value>
  </property>
   
   <!-- 兼容配置，先跳过 -->
    <property>
    <name>dfs.client.datanode-restart.timeout</name>
    <value>30s</value>
  </property>

  <!-- nn web端访问地址-->
<property>
  <name>dfs.namenode.http-address</name>
  <value>hadoop102:9870</value>
</property>
  <!-- 2nn web端访问地址-->

  <property>
    <name>dfs.namenode.secondary.http-address</name>
    <value>hadoop104:9868</value>
</property>

（4）YARN配置文件
（a）配置yarn-site.xml

vim yarn-site.xml

<property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
</property>
 <!-- 指定ResourceManager的地址-->
<property>
        <name>yarn.resourcemanager.hostname</name>
        <value>hadoop103</value>
</property>
<!-- 环境变量的继承 -->
<property>
        <name>yarn.nodemanager.env-whitelist</name>
        <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
</property>
<!--  取消虚拟内存的限制 -->
<property>
<name>yarn.nodemanager.vmem-check-enabled</name>
<value>false</value>
</property>

（5）MapReduce配置文件
配置mapred-site.xml

<!-- 指定MapReduce程序运行在Yarn上 -->
  <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
  </property>

4）在集群上分发配置好的hadoop

xsync /opt/module/hadoop-3.1.3

集群单点启动

1）如果集群是第一次启动，需要格式化NameNode
hdfs namenode -format
2）在hadoop102上启动NameNode
hdfs --daemon start namenode
3）完成后执行jps命令，看到如下结果（进程号可能不同）：
3461 NameNode
4）在hadoop102、hadoop103以及hadoop104上执行如下命令（三台都要执行）启动datanode
hdfs --daemon start datanode
5）在hadoop104上启动secondarynamenode
hdfs --daemon start secondarynamenode
6）在hadoop103上启动ResourceManager
yarn --daemon start resourcemanager
7）在hadoop102、hadoop103以及hadoop104上执行如下命令（三台都要执行）启动nodemanager
yarn --daemon start nodemanager

格式化需要注意的问题

思考：为什么不能一直格式化NameNode，格式化NameNode，要注意什么？

[atguigu@hadoop101 hadoop-3.1.3]$ cd data/tmp/dfs/name/current/
[atguigu@hadoop101 current]$ cat VERSION
clusterID=CID-f0330a58-36fa-4a2a-a65f-2688269b5837

[atguigu@hadoop101 hadoop-3.1.3]$ cd data/tmp/dfs/data/current/
clusterID=CID-f0330a58-36fa-4a2a-a65f-2688269b5837

注意：格式化NameNode，会产生新的集群id,导致DataNode中记录的的集群id和刚生
成的NameNode的集群id不一致，DataNode找不到NameNode。
所以，格式NameNode时，一定要先删除每个节点的data目录和logs日志，然
后再格式化NameNode。

SSH无密登录配置

1）ssh
（1）基本语法
ssh 另一台电脑的ip地址或者主机名
（2）ssh连接时出现Host key verification failed

ssh hadoop103

出现：

The authenticity of host '192.168.1.103 (192.168.1.103)' can't be established.
RSA key fingerprint is cf:1e:de:d7:d0:4c:2d:98:60:b4:fd:ae:b1:2d:ad:06.
Are you sure you want to continue connecting (yes/no)?

解决方案：直接输入yes然后回车即可
3）配置免密

（1）分别在hadoop102 hadoop103 hadoop104生成公钥和私钥：

ssh-keygen -t rsa

然后敲（三个回车），就会在 ~/.ssh目录下生成两个文件
id_rsa（私钥）、id_rsa.pub（公钥）
（2）分别在hadoop102 hadoop103 hadoop104执行,将公钥拷贝到要免密登录的目标机器上

ssh-copy-id hadoop102
ssh-copy-id hadoop103
ssh-copy-id hadoop104

（3）注意：
如果还想实现其他用户的免密登录,还需要在每台节点上采用其他账号，完成免密的配
置。
4）~/.ssh目录下的文件功能解释
known_hosts 记录ssh访问过计算机的公钥(public key)
id_rsa 生成的私钥
id_rsa.pub 生成的公钥
authorized_keys 存放授权过的无密登录服务器公钥

群起集群

1）配置workers文件
（1）编辑workers文件加入如下内容
vim /opt/module/hadoop-3.1.3/etc/hadoop/workers
在该文件中增加如下内容：

hadoop102
hadoop103
hadoop104

注意：该文件中添加的内容结尾不允许有空格，文件中不允许有空行。
（2）同步workers文件到其他节点

xsync  workers

（1）如果集群是第一次启动，需要在hadoop102节点格式化NameNode
（注意格式化之前，一定要先停止上次启动的所有namenode和datanode进程，然后
再删除data和log数据）

hdfs namenode -format

（2）启动HDFS

start-dfs.sh

（3）在配置了ResourceManager的节点（hadoop103）启动YARN

start-yarn.sh

2）启动集群
（1）如果集群是第一次启动，需要在hadoop102节点格式化NameNode
（注意格式化之前，一定要先停止上次启动的所有namenode和datanode进程，然后
再删除data和log数据）

hdfs namenode -format

（2）启动HDFS

start-dfs.sh

（3）在配置了ResourceManager的节点（hadoop103）启动YARN

start-yarn.sh

3）集群基本测试
（1）上传文件到集群
（a）上传小文件

hadoop fs -mkdir -p /user/atguigu/input
hadoop fs -put $HADOOP_HOME/wcinput/wc.input /user/atguigu/input

（b）上传大文件

hadoop fs -put  /opt/software/hadoop-3.1.3.tar.gz  /

（2）上传文件后查看文件存放在什么位置
（a）查看HDFS文件存储路径

[atguigu@hadoop102 subdir0]$ pwd
/opt/module/hadoop-3.1.3/data/tmp/dfs/data/current/BP-938951106-192.168.10.107-1495462844069/current/finalized/subdir0/subdir0

注意: BP-938951106-192.168.10.107-1495462844069每位同学的可能不一样。
（b）查看HDFS在磁盘存储文件内容

[atguigu@hadoop102 subdir0]$ cat blk_1073741825
hadoop yarn
hadoop mapreduce 
atguigu
atguigu

   注意：blk_1073741825的可能不一样。

（3）下载

[atguigu@hadoop102 hadoop-3.1.3]$ bin/hadoop fs -get
 /hadoop-3.1.3.tar.gz ./

（4）执行wordcount程序

[atguigu@hadoop102 hadoop-3.1.3]$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /user/atguigu/input /user/atguigu/output

为实现一键启动关闭集群

vim starthadoop.sh

#!/bin/bash
ssh hadoop102 start-dfs.sh
ssh hadoop103 start-yarn.sh

vim stophadoop.sh

#!/bin/bash
ssh hadoop102 stop-dfs.sh
ssh hadoop103 stop-yarn.sh

sj天问

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
hadoop完全分布式搭建以及试运行

完全分布式运行模式1）分析：（1）准备3台客户机（关闭防火墙、静态ip、主机名称）（2）安装JDK（3）配置环境变量（4）安装Hadoop（5）配置环境变量（6）配置集群（7）单点启动（8）配置ssh（9）群起并测试集群编写分发脚本（1）scp定义：scp可以实现服务器与服务器之间的数据拷贝。（from server1 to server2）（2）基本语法scp -r pdir/pdir/pdir/fname user@hado
复制链接

扫一扫