二、Hadoop教程之分布式环境集群搭建讲解（详细）

最新推荐文章于 2024-06-16 03:53:11 发布

肖广彪

最新推荐文章于 2024-06-16 03:53:11 发布

阅读量410

点赞数 3

分类专栏： Hadoop 文章标签： hadoop

本文链接：https://blog.csdn.net/xgb2018/article/details/109329168

版权

Hadoop 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

二、Hadoop教程之分布式环境集群搭建讲解（详细）

前言
- - 1. 布式环境部署

前言

本文只介绍安装部署Apache Hadoop2.x版本，后续文章将来介绍Hadoop2.x的架构组成、各模块协同工作原理、技术细节。安装不是目的，通过安装认识Hadoop才是目的。

1. 布式环境部署

分部式是真正利用多台 Linux 主机来进行部署 Hadoop，对 Linux 机器集群进行规划，使得 Hadoop 各个模块分别部署在不同的多台机器上。
下面将演示Hadoop集群分布式部署（包含1个主节点和2个从节点）。

（1）准备工作

准备三台linux服务器：
192.168.2.110 （主节点）
192.168.2.111 （从节点）
192.168.2.112 （从节点）
关闭防火墙
安装JDK并配置环境变量
默认您已安装JDK并配置环境变量，安装和配置在此不做赘述。

//192.168.2.110上配置如下：
/usr/local/jdk/jdk1.8.0_192/bin/java

//192.168.2.111上配置如下：
/usr/local/server/jdk1.8.0_171/bin/java

//192.168.2.112上配置如下：
/usr/local/server/jdk1.8.0_171/bin/java

想知道是否配置成功？查看全局变量：

echo $JAVA_HOME

（1）三台服务器配置同步时间：

yum install ntpdate
ntpdate cn.pool.ntp.org

（2）三台服务器配置主机名：

vim /etc/sysconfig/network

//192.168.2.110上network配置如下：
NETWORKING=yes
HOSTNAME=node-1

//192.168.2.111上network配置如下：
NETWORKING=yes
HOSTNAME=node-2

//192.168.2.112上network配置如下：
NETWORKING=yes
HOSTNAME=node-3

（2）三台服务器设置ip、主机名映射：

vim /etc/hosts

//192.168.2.110上hosts配置如下：
192.168.2.110 node-1

//192.168.2.111上hosts配置如下：
192.168.2.111 node-2

//192.168.2.112上hosts配置如下：
192.168.2.112 node-3

（3）主节点服务器配置ssh免密登录（192.168.2.110上配置）
网上hadoop配置ssh免密登录的方法多种多样，看的眼花缭乱。条条大路通罗马，博主整理了最简洁的配置方法：

ssh-keygen -t rsa              # 会有提示，都按回车就可以
//cat id_rsa.pub >> authorized_keys  # 加入授权（非必须执行）
//chmod 600 ./authorized_keys    # 修改文件权限（非必须执行）
ssh-copy-id node-1
ssh -o StrictHostKeyChecking=no node-1
ssh-copy-id node-2
ssh -o StrictHostKeyChecking=no node-2
ssh-copy-id node-3
ssh -o StrictHostKeyChecking=no node-3

ssh-copy-id ：命令可以将当前生成的公共密钥填充到一个远程机器上的authorized_keys文件中。
ssh -o StrictHostKeyChecking=no：在首次连接服务器时，会弹出公钥确认的提示。这会导致某些自动化任务，由于初次连接服务器而导致自动化任务中断。或者由于 ~/.ssh/known_hosts 文件内容清空，导致自动化任务中断。 SSH 客户端的 StrictHostKeyChecking 配置指令，可以实现当第一次连接服务器时，自动接受新的公钥。

如果报错：The authenticity of host ‘node-2 (10.0.0.8)’ can’t be established。别慌，再次执行下面命令：

ssh -o StrictHostKeyChecking=no node-2

如果报错：Permissions 0644 for ‘/root/.ssh/id_rsa’ are too open。别慌，是说/root/.ssh/id_rsa给的权限太开放，执行下面命令赋权：

chmod 0600 /root/.ssh/id_rsa

（2）配置工作

将hadoop-2.8.5传到/home/neijiang/目录（可以自定义），以下配置均是在主节点服务器上进行，配置完成后，将主节点的hadoop-2.8.5复制到所有从节点即可：
（特别注意：因为hadoop的环境变量不是在hadoop-2.8.5目录下配置的，所有需手动配置到从节点）
（1）配置hadoop-env.sh

vim hadoop-env.sh

//192.168.2.110上hadoop-env.sh配置如下：
<!-- 修改 JAVA_HOME 路径 -->
export JAVA_HOME=/usr/local/jdk1.8.0_171

（2）修改配置文件 core-site.xml

//192.168.2.110上core-site.xml配置如下：
<configuration>
    <!-- 指定Hadoop运行时产生文件的存储目录 -->
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/home/neijiang/hadoop-2.8.5/hadoopData</value>
        <description>Abase for other temporary directories.</description>
    </property>
    <!-- 指定HDFS中NameNode的地址 -->
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://node-1:9000</value>
    </property>
</configuration>

（3）修改配置文件 hdfs-site.xml：

//192.168.2.110上hdfs-site.xml配置如下：
<configuration>
    <!-- 指定HDFS副本的数量 -->
    <property>
        <name>dfs.replication</name>
        <value>3</value>
    </property>
    <!-- 指定HDFS副本所在节点位置 -->
    <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>node-2:50090</value>
    </property>
</configuration>

（4）修改配置文件 mapred-site.xml.template：

mv mapred-site.xml.template mapred-site.xml
vim mapred-site.xml

//192.168.2.110上mapred-site.xml.template配置如下：
<configuration>
<!--指定mr运行时框架，这里指定在yarn上，默认是local-->
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

（5）yarn-site.xml

//192.168.2.110上yarn-site.xml配置如下：
<!--指定yarn的老大（resourceManager）的地址-->
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>node-1</value>
    </property>
<!--NodeManager上运行的附属服务，需配置成mapreduce_shuffle,才可运行MapReduce程序的默认值-->
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>

（6）slaves文件，里面写上从节点所在的主机名称

vim slaves

//192.168.2.110上slaves配置如下：
//删除原先的localhsot,写入如下内容：
node-1
node-2
node-3

（7）将hadoop添加到环境变量

vim /etc/profile

//192.168.2.110上配置如下：
export HADOOP_HOME=/home/neijiang/hadoop-2.8.5/  #指向hadoop解压路径
export PATH=$JAVA_HOME/bin:$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export PATH=$HBASE_HOME/bin:$ZK_HOME/bin:$JAVA_HOME/bin:$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

（8）将主节点192.168.2.110上配置好的 hadoop-2.10.0根目录复制到所有从节点：

scp -r /home/neijiang/hadoop-2.8.5/ root@node-2:/home/neijiang/
scp -r /home/neijiang/hadoop-2.8.5/ root@node-3:/home/neijiang/

（9）将主节点192.168.2.110上配置好的 hadoop环境变量手动配置到所有从节点：

export HADOOP_HOME=/home/neijiang/hadoop-2.8.5  #指向hadoop解压路径
PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

（3）启动工作

（1）关于hdfs的格式化：
首次启动需要进行格式化，格式化的本质是进行文件系统的初始化操作，创建一些自己需要的文件；
格式化之后，集群启动成功，后续再也不需要格式化。
格式化的操作必须在hdfs集群的主节点（Namenode）所在的机器上操作
格式化命令：

hadoop namenode -format

(2) 启动方式
/home/neijiang/hadoop-2.8.5/sbin下

  hdfs启动:  start-dfs.sh
  yarn启动:  start-yarn.sh
  //等同于：start-all.sh

  hdfs关闭:  stop-dfs.sh
  yarn关闭:  stop-yarn.sh
  //等同于：stop-all.sh

（4）查看集群

（1）hdfs集群web-ui页面（文件系统：集群状态和文件存储）：
http://192.168.2.110:50070/
（2）yarn集群web-ui页面（资源调度平台：管理计算资源）：
http://192.168.2.110:8088/

可以在各个节点服务器上，使用jps命令查看启动的东西
如果感觉有帮助，请“点赞”、“关注”、“收藏”哈！

肖广彪

关注

3
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
二、Hadoop教程之分布式环境集群搭建讲解（详细）

二、Hadoop教程之布式环境集群搭建讲解（详细）前言1. 安装JDK并配置环境变量2. 布式环境部署（1）准备工作前言本文的思路是：以安装部署Apache Hadoop2.x版本为主线，来介绍Hadoop2.x的架构组成、各模块协同工作原理、技术细节。安装不是目的，通过安装认识Hadoop才是目的。1. 安装JDK并配置环境变量默认您已安装JDK并配置环境变量，安装配置在此不做赘述。2. 布式环境部署分部式是真正利用多台 Linux 主机来进行部署 Hadoop，对 Linux 机器集群进行
复制链接

扫一扫