Hadoop之HA模式搭建

HA介绍
为了解决Hadoop集群NameNode和ResourceManager单点问题Hadoop2.x推出高可用集群即Hadoop集群HA模式。
文档内容:https://gitee.com/TianHanXiaoXiaoSheng/everyday_learn/blob/master/hadoop-wc/Hadoop%E4%B9%8BHA%E6%90%AD%E5%BB%BA.md

HA模式搭建
基础环境准备
Centos6.x环境准备三台han-101、han-102、han-103
安装JDK1.8
固定ip
SSH免密登录
时间同步
HA集群节点规划
角色\节点 han-101 han-102 han-103
ZK Y Y Y
KAFKA Y Y Y
JN Y Y Y
ZKFC Y Y
NN Y Y
DN Y Y Y
RM Y Y
NM Y Y Y
HS Y
ZK和KAFKA集群搭建不在此体现。

HA配置
下载hadoop-2.7.2.tar.gz以此为例。

创建安装目录解压tar.gz

$mkdir -p /opt/module

$tar -zxvf hadoop-2.7.2.tar.gz -C /opt/module/

修改env配置

hadoop-env.sh、mapred-env.sh、yarn-env.sh

修改添加JAVA环境变了 export JAVA_HOME=/opt/module/jdk1.8.0_281

环境变量和自己安装jdk实际路径为准。

修改xml配置

core-site.xml

fs.defaultFS hdfs://mycluster hadoop.tmp.dir /opt/module/hadoop/data ha.zookeeper.quorum han-101:2181,han-102:2181,han-103:2181
<!-- 指定NameNode连接JournalNode重试次数和重试间隔时间 防止NameNode启动连接JN失败而闪退-->
<property>
	<name>ip.client.connect.max.retries</name>
	<value>100</value>
</property>
<property>
	<name>ipc.client.connect.retry.interval</name>
	<value>1000</value>
</property>
hdfs-site.xml dfs.replication 3
<!-- 完全分布式集群名称 -->
<property>
	<name>dfs.nameservic
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Hadoop High Availability (HA) 集群是为了提高Apache Hadoop集群的可靠性和可用性而设计的一种架构。它通过将关键服务(如NameNode和JobTracker)冗余部署,并在主节点故障时自动切换到备用节点,保证了数据处理任务的持续进行。下面是Hadoop HA集群搭建的基本步骤: 1. **安装并配置Hadoop**: - 安装Hadoop到两个或更多节点上,每个节点都是一个独立的Hadoop集群实例。 - 配置`core-site.xml`和`hdfs-site.xml`文件,设置集群的名称节点(NameNode)和数据节点DataNodes)。 2. **启用HDFS HA**: - 在`hdfs-site.xml`中,设置`ha.fencing.methods`指定节点之间的心跳检测方法,例如SSH或JMX。 - 创建一个HDFS HA配置文件,如`core-site.xml.template`,并在实际集群中创建对应的配置文件。 3. **配置高可用NameNode**: - 设置`ha.zookeeper.quorum`为ZooKeeper集群地址,用于选举新的Active NameNode。 - 配置`dfs.nameservice.id`定义NameNode服务名。 - 在`hdfs-site.xml`中启用`dfs.ha.namenodes.<nameservice-id>`属性。 4. **设置Secondary NameNode**: - 在`hdfs-site.xml`中启用`dfs.ha.automatic-failover.enabled`,并配置`dfs.ha.automatic-failover.retry-interval`和`dfs.ha.automatic-failover.timeout`。 5. **配置ZooKeeper**: - 如果没有使用ZooKeeper,需要配置一个或多个ZooKeeper服务器作为NameNode服务选举的协调器。 6. **启动HDFS服务**: - 启动HDFS集群,包括两个NameNode(一个为主,一个为备)和足够的DataNodes。 7. **验证集群状态**: 使用`hdfs haadmin`命令检查集群状态、启动/关闭心跳检测和手动触发Failover。 8. **配置YARN HA**: 对于YARN资源管理器,类似地,需要配置ResourceManager HA(RMHA),并设置HA模式。 9. **测试和监控**: 确保服务可用,执行负载测试,并设置监控工具(如Hadoop Metrics2或Ganglia)来监控性能和异常。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值