Hadoop运行环境搭建（二）

最新推荐文章于 2024-08-08 23:29:08 发布

阿涛在coding

最新推荐文章于 2024-08-08 23:29:08 发布

阅读量227

点赞数 2

分类专栏： # Hadoop 文章标签： hadoop

本文链接：https://blog.csdn.net/weixin_52678046/article/details/112008498

版权

Hadoop 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

文章目录

Hadoop运行模式包括：本地模式、伪分布式模式和完全分布式模式。

Hadoop官方网站：http://hadoop.apache.org/

一、本地运行模式

1.在hadoop-3.1.3文件下面创建一个testinput文件夹

mkdir testinput

2.在testinput文件夹下面创建一个test.input文件

vim test.input

并添加如下内容

hadoop yarn
hadoop mapreduce
atao
atao

3.回到Hadoop目录/opt/module/hadoop-3.1.3

4.执行程序

hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar  wordcount testinput testout

5.查看结果

cat testout/part-r-00000

看到如下结果：

atao	2
hadoop	2
mapreduce	1
yarn	1

二、完全分布式运行模式

1.编写集群分发脚本

1）scp（secure copy）安全拷贝

（1）scp定义

scp可以实现服务器与服务器之间的数据拷贝。（from server1 to server2）

（2）基本语法

scp    -r         $pdir/$fname           $user@hadoop$host:$pdir/$fname
命令   递归       要拷贝的文件路径/名称    目的用户@主机:目的路径/名称

2）rsync远程同步工具

（1）rsync定义

rsync主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点。

rsync和scp区别：用rsync做文件的复制要比scp的速度快，rsync只对差异文件做更新。scp是把所有文件都复制过去。

（2）基本语法

rsync   -av       $pdir/$fname           $user@hadoop$host:$pdir/$fname
命令   选项参数   要拷贝的文件路径/名称    目的用户@主机:目的路径/名称

选项参数说明：

选项	功能
-a	归档拷贝
-v	显示复制过程

3）xsync集群分发脚本

（1）需求：循环复制文件到所有节点的相同目录下

（2）需求分析：

（a）rsync命令原始拷贝：

rsync  -av     /opt/module  		 root@vagrant2:/opt/

（b）期望脚本：

xsync 脚本名称
比如：
xsync /etc/profile

说明：在/home/atao/bin这个目录下存放的脚本，atao用户可以在系统任何地方直接执行

（3）脚本实现

（a）在/home/atao目录下创建xsync文件

cd /home/atao
vim xsync

添加内容如下

#!/bin/bash
#1. 判断参数个数
if [ $# -lt 1 ]
then
  echo Not Enough Arguement!
  exit;
fi
#2. 遍历集群所有机器
for host in vagrant1 vagrant2 vagrant3
do
  echo ====================  $host  ====================
  #3. 遍历所有目录，挨个发送
  for file in $@
  do
    #4 判断文件是否存在
    if [ -e $file ]
    then
      #5. 获取父目录
      pdir=$(cd -P $(dirname $file); pwd)
      #6. 获取当前文件的名称
      fname=$(basename $file)
      ssh $host "mkdir -p $pdir"
      rsync -av $pdir/$fname $host:$pdir
    else
      echo $file does not exists!
    fi
  done
done

（b）修改脚本xsync具有执行权限

chmod +x xsync

（c）将脚本移动到/bin中，以便全局调用

mv xsync /bin/

（d）测试脚本

xsync /bin/xsync

2.SSH免密登录配置

1）免密登录原理

2）生成公钥和私钥

ssh-keygen -t rsa
一直往下敲回车就行

3）将公钥拷贝到需要免密登录的机器上

ssh-copy-id vagrant1
ssh-copy-id vagrant2
ssh-copy-id vagrant3

PS：还需要在vagrant2和vagrant3上配置，把atao账户也配置一遍

4）生成的.ssh（~/.ssh）目录结构

文件名	功能
id_rsa	生成的私钥
id_rsa.pub	生成的公钥
known_hosts	记录ssh访问过计算机的公钥（public key）
authorized_keys	存放授权过的无密登录服务器公钥

3.集群配置

1）集群部署规划

	vagrant1	vagrant2	vagrant3
HDFS	NameNode DataNode	DataNode	SecondaryNameNode DataNode
YARN	NodeManager	ResourceManager NodeManager	NodeManager

vagrant1

vagrant2

vagrant3

HDFS

NameNode

DataNode

SecondaryNameNode

DataNode

YARN

NodeManager

ResourceManager

NodeManager

PS：消耗内存的不要安装在同一台服务器

a.NameNode和SecondaryNameNode不要配置在同一台服务器

b.ResourceManager不要和NameNode、SecondaryNameNode配置在同一台机器上

2）配置集群

需要配置的文件如下：

核心配置文件：core-site.xml
HDFS配置文件：hdfs-site.xml
YARN配置文件：yarn-site.xml
MapReduce配置文件：mapred-site.xml
集群配置文件：workers

（1）核心配置文件：core-site.xml

cd $HADOOP_HOME/etc/hadoop
vim core-site.xml

添加内容如下：

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://vagrant1:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/opt/module/hadoop-3.1.3/data</value>
    </property>
   <property>
        <name>hadoop.proxyuser.atao.hosts</name>
        <value>*</value>
    </property>
    <property>
        <name>hadoop.proxyuser.atao.groups</name>
        <value>*</value>
    </property>
    <property>
        <name>hadoop.http.staticuser.user</name>
        <value>atao</value>
    </property>
</configuration>

（2）HDFS配置文件：hdfs-site.xml

cd $HADOOP_HOME/etc/hadoop
vim hdfs-site.xml

添加内容如下：

<configuration>
    <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>vagrant3:9868</value>
    </property>
</configuration>

（3）YARN配置文件：yarn-site.xml

cd $HADOOP_HOME/etc/hadoop
vim yarn-site.xml

添加内容如下：

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>vagrant2</value>
    </property>
    <property>
        <name>yarn.nodemanager.env-whitelist</name>
        <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
    </property>
    <property>
        <name>yarn.scheduler.minimum-allocation-mb</name>
        <value>512</value>
    </property>
    <property>
        <name>yarn.scheduler.maximum-allocation-mb</name>
        <value>2048</value>
    </property>
    <property>
        <name>yarn.nodemanager.resource.memory-mb</name>
        <value>2048</value>
    </property>
    <property>
        <name>yarn.nodemanager.pmem-check-enabled</name>
        <value>false</value>
    </property>
    <property>
        <name>yarn.nodemanager.vmem-check-enabled</name>
        <value>false</value>
    </property>
</configuration>

（4）MapReduce配置文件：mapred-site.xml

cd $HADOOP_HOME/etc/hadoop
vim mapred-site.xml

添加内容如下：

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

（5）集群配置文件：workers

cd $HADOOP_HOME/etc/hadoop
vim workers

添加内容如下：

vagrant1
vagrant2
vagrant3

（6）在集群上同步配置好的Hadoop配置文件

xsync /etc/profile.d/my_env.sh
xsync /opt/module/hadoop-3.1.3/etc/hadoop/

（7）查看同步的文件情况

在vagrant2或者vagrant3上随便查看一个节点的文件

[atao@vagrant2 ~]# cat /opt/module/hadoop-3.1.3/etc/hadoop/hdfs-site.xml

4.集群启动

1）格式化NameNode（如果是第一次启动）

hdfs namenode -format

PS：如果集群是第一次启动，需要再vagrant1节点格式化NameNode。
    如果不是第一次启动需要格式化的话，一定要停止上次启动的所有NameNode和DataNode进程，然后再删除data和logs数据。

如果出现如下表示格式化成功：

2）启动HDFS

sbin/start-dfs.sh

3）在配置了ResourceManager的节点（vagrant2）启动YARN

sbin/start-yarn.sh

4）查看进程

[atao@vagrant1 hadoop-3.1.3]# jps
8450 NameNode
9205 Jps
8584 DataNode
9099 NodeManager

[atao@vagrant2 hadoop-3.1.3]# jps
6486 DataNode
7382 ResourceManager
7513 NodeManager
7868 Jps

[atao@vagrant3 hadoop-3.1.3]# jps
6662 DataNode
7015 NodeManager
6764 SecondaryNameNode
7133 Jps

5）在web端查看

5.集群基本测试

（1）上传文件到集群

小文件：
hadoop fs -mkdir -p /user/atao/input
hadoop fs -put /opt/module/hadoop-3.1.3/testinput/test.input /user/atao/input

大文件：
hadoop fs -put /opt/software/hadoop-3.1.3.tar.gz /

（2）查看文件位置

（3）执行wordcount程序

[atao@vagrant1 hadoop-3.1.3]$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /user/atao/input /user/atao/output

6.集群启动/停止方式总结

1）各个服务组件逐一启动/停止

1.分别启动/停止HDFS组件
hdfs --daemon start/stop namenode/datanode/secondarynamenode

2.启动/停止YARN
yarn --daemon start/stop  resourcemanager/nodemanager

2）各个模块分开启动/停止

PS：这个一定要配置SSH免密登录，一般常用

1.整体启动/停止HDFS
start-dfs.sh/stop-dfs.sh

2.整体启动/停止YARN
start-yarn.sh/stop-yarn.sh

总结

本章主要是对hadoop的两种运行的搭建，本地运行模式和完全分布式模式，需要注意一点的就是在上面的操作中都用的atao这个用户，在下一节中会讲述怎么配置历史服务器，日志的聚集，集群时间同步等。

阿涛在coding

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录