hadoop3 HA部署

氵皮先生

已于 2024-03-29 10:45:23 修改

阅读量757

点赞数 26

文章标签： hadoop 分布式大数据 npm

于 2024-03-22 11:03:59 首次发布

本文链接：https://blog.csdn.net/weixin_44697677/article/details/136934535

版权

HA 概述

1.所谓HA（High Availablity），即高可用（7*24小时不中断服务）。

2.实现高可用最关键的策略是消除单点故障。HA严格来说应该分成各个组件的HA机制：HDFS的HA和YARN的HA。

3.NameNode主要在以下两个方面影响HDFS集群：

NameNode机器发生意外，如宕机，集群无法使用，指导管理员重启。
NameNode机器需要升级，包括软件，硬件升级，此时集群也将无法使用。

HDFS HA功能通过配置多个NameNodes(Active/Standby)实现在集群中对NameNode的热备（备用系统模式）来解决上述问题。如果出现故障，如机器崩溃或机器需要升级维护，这时可通过此种方式将NameNode很快的切换到另外一台机器。

准备工作

jdk安装及ssh免密登录设置，hadoop安装及环境变量设置同上，配置好zookeeper并启动。

HDFS-HA集群搭建

之前的hdfs集群搭建的规划：

master	slave1	slave2
NameNode		Secondarynamenode
DataNode	DataNode	DataNode

HA的主要目的是消除namenode的单点故障,需要将hdfs集群规划成以下模样,其中自动故障转移为HDFS部署增加了两个新组件ZooKeeper和ZKFailoverController（ZKFC）进程，如图所示。ZooKeeper是维护少量协调数据，通知客户端这些数据的改变和监视客户端故障的高可用服务。

master	slave1	slave2
NameNode	NameNode	NameNode
JournalNode	JournalNode	JournalNode
DataNode	DataNode	DataNode
Zookeeper	Zookeeper	Zookeeper
ZKFC	ZKFC	ZKFC

配置文件修改

1.修改core-site.xml，hdfs-site.xml配置文件

核心配置文件core-site.xml

<name>fs.defaultFS</name>

<value>hdfs://mycluster</value>

</property>

<name>hadoop.tmp.dir</name>

<value>/opt/module/hadoop3/data</value>

</property>

<name>dfs.journalnode.edits.dir</name>

<value>/opt/module/hadoop3/data/jn</value>

</property>

<name>ha.zookeeper.quorum</name>

<value>master:2181,slave1:2181,slave2:2181</value>

</property>

</configuration>

HDFS配置文件hdfs-site.xml

<name>dfs.nameservices</name>

<value>mycluster</value>

</property>

<name>dfs.ha.namenodes.mycluster</name>

</property>

<name>dfs.namenode.rpc-address.mycluster.nn1</name>

<value>master:8020</value>

</property>

<name>dfs.namenode.rpc-address.mycluster.nn2</name>

<value>slave1:8020</value>

</property>

<name>dfs.namenode.rpc-address.mycluster.nn3</name>

<value>slave2:8020</value>

</property>

<name>dfs.namenode.http-address.mycluster.nn1</name>

<value>master:9870</value>

</property>

<name>dfs.namenode.http-address.mycluster.nn2</name>

<value>slave1:9870</value>

</property>

<name>dfs.namenode.http-address.mycluster.nn3</name>

<value>slave2:9870</value>

</property>

<name>dfs.namenode.shared.edits.dir</name>

<value>qjournal://master:8485;slave1:8485;slave2:8485/mycluster</value>

</property>

<name>dfs.client.failover.proxy.provider.mycluster</name>

<value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>

</property>

<name>dfs.ha.fencing.methods</name>

<value>

sshfence

shell(/bin/true)

</value>

</property>

<name>dfs.ha.fencing.ssh.private-key-files</name>

</property>

<name>dfs.ha.automatic-failover.enabled</name>

</property>

</configuration>

2.修改hadoop-env.sh文件

vim hadoop-env.sh

添加内容

export JAVA_HOME=/opt/module/jdk1.8

export HDFS_NAMENODE_USER=root

export HDFS_DATANODE_USER=root

export YARN_RESOURCEMANAGER_USER=root

export YARN_NODEMANAGER_USER=root

export HDFS_JOURNALNODE_USER=root

export HDFS_ZKFC_USER=root

4.修改workers文件

vim workers

删除原来的localhost修改为

master

slave1

slave2

5.用scp分发第一、二步的文件到所以节点

cd /opt/module

scp –r hadoop3 slave1:/opt/module

scp –r hadoop3 slave2:/opt/module

6.启动journalnode服务（三个节点都要操作）

hdfs --daemon start journalnode

检查是否成功启动

jps

7.格式化namenode（格式化之前确保zookeeper服务与journalnode服务都已启动）

hdfs namenode -format

8.单独启动namenode(在master上执行)

hdfs --daemon start namenode

9.namenode主从信息同步（在slave1、slave2上执行）

hdfs namenode -bootstrapStandby

10.格式化zookeeper（只需要在master节点执行）

执行之前执行stop-dfs.sh先关掉journalnode进程

hdfs zkfc -formatZK

11.启动hadoop

start-dfs.sh

12.验证hadoop正常启动

jps

13.测试功能是否可用

三个节点web页面如下，其中master为active,slave1与slave2为standby

查看master节点的namenode进程号，并杀死进程

kill -9 20254

此时，发现master节点web页面打不开了，slave1节点变为active状态，slave2依旧是standby

配置YARN-HA集群

集群规划如下：

master	slave1	slave2
ResourceManager	ResourceManager	ResourceManager
NodeManager	NodeManager	NodeManager
Zookeeper	Zookeeper	Zookeeper

配置文件修改

1.修改yarn-site.xml，mapred.xml配置文件

yarn-site.xml

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

<name>yarn.resourcemanager.ha.enabled</name>

</property>

<name>yarn.resourcemanager.cluster-id</name>

<value>cluster-yarn</value>

</property>

<name>yarn.resourcemanager.ha.rm-ids</name>

</property>

<name>yarn.resourcemanager.hostname.rm1</name>

<value>master</value>

</property>

<name>yarn.resourcemanager.webapp.address.rm1</name>

<value>master:8088</value>

</property>

<name>yarn.resourcemanager.address.rm1</name>

<value>master:8032</value>

</property>

<name>yarn.resourcemanager.scheduler.address.rm1</name>

<value>master:8030</value>

</property>

<name>yarn.resourcemanager.resource-tracker.address.rm1</name>

<value>master:8031</value>

</property>

<name>yarn.resourcemanager.hostname.rm2</name>

<value>slave1</value>

</property>

<name>yarn.resourcemanager.webapp.address.rm2</name>

<value>slave1:8088</value>

</property>

<name>yarn.resourcemanager.address.rm2</name>

<value>slave1:8032</value>

</property>

<name>yarn.resourcemanager.scheduler.address.rm2</name>

<value>slave1:8030</value>

</property>

<name>yarn.resourcemanager.resource-tracker.address.rm2</name>

<value>slave1:8031</value>

</property>

<name>yarn.resourcemanager.hostname.rm3</name>

<value>slave2</value>

</property>

<name>yarn.resourcemanager.webapp.address.rm3</name>

<value>slave2:8088</value>

</property>

<name>yarn.resourcemanager.address.rm3</name>

<value>slave2:8032</value>

</property>

<name>yarn.resourcemanager.scheduler.address.rm3</name>

<value>slave2:8030</value>

</property>

<name>yarn.resourcemanager.resource-tracker.address.rm3</name>

<value>slave2:8031</value>

</property>

<name>yarn.resourcemanager.zk-address</name>

<value>master:2181,slave1:2181,slave2:2181</value>

</property>

<name>yarn.resourcemanager.recovery.enabled</name>

</property>

<name>yarn.resourcemanager.store.class</name>

<value>org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore</value>

</property>

<name>yarn.nodemanager.env-whitelist</name>

<value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLAS

SPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>

</property>

</configuration>

mapred-site.xml

<name>mapreduce.framework.name</name>

</property>

</configuration>

2.启动

start-yarn.sh

3.测试

打开三个节点yarn的web页面，发现三个网址都会跳转到slave1的页面，说明只有slave1是active.

查看slave1的rm的进程号，并杀死

此时，再打开网页，发现跳转的是master的网页。

Hadoop HA最终规划

master	slave1	slave2
NameNode	NameNode	NameNode
JournalNode	JournalNode	JournalNode
DataNode	DataNode	DataNode
Zookeeper	Zookeeper	Zookeeper
ZKFC	ZKFC	ZKFC
ResourceManager	ResourceManager	ResourceManager
NodeManager	NodeManager	NodeManager