作者:徐德昌
时间:2018-07-26
背景 :Hadoop生态系统中,集群节点间通常使用主机名(域名)来通信。目前我们的集群是使用/etc/hosts文件来做主机名和IP的映射关系。使用hosts文件的优点是简单,但一个非常显著的缺点是其维护成本会随着集群规模的扩大而变得越来越大,集群扩容时因hosts文件未同步导致的故障非常频繁。更优的方案是使用DNS来管理主机名和IP的映射关系。
一、需要解决的问题
- 主机名能够同时在集群内外部解析
- 主机IP在集群内部可以反解
- 需要兼容集群现有的基于hosts文件的主机名
因公司DNS服务器不支持IP反解,所以必须自建DNS。并且为保证主机名能够被集群外部解析,在集群扩容(新增主机名)时需要把主机名同时注册到自建DNS(内部)和外部DNS(公司统一的DNS)上。基本架构图如下:
二、DNS服务器选型
目前最常用的dns服务主要有dnsmasq和bind
- dnsmasq:轻量,配置维护简单
- bind:重量级,支持集群配置同步和高可用,是DNS领域行业标准
鉴于目前集群规模以及dnsmasq配置简单且满足我们的需求,所以我们选择dnsmasq做为dns服务器。
三、自建DNS配置
- 存量主机名解析文件(原/etc/hosts)
- 新增主机名解析文件
- 转发所有外部域名到公司DNS
四、主机配置
- /etc/resolv.conf 指向自建DNS
- 开启nscd,缓存域名解析,降低自建DNS挂掉对集群的影响
五、主机名(域名)注册操作
为避免内部DNS与公司(外部)DNS的解析可能存在不一致的问题,所以我们做以下规范:
- IP与域名为一一映射,例如IP为192.168.1.1的主机,其主机名为:192-168-1-1.xxx.com (xxx.com为域名后缀)
- 在内部DNS(dnsmasq)上,通过定时脚本,根据资产表按[1]中的规则自动生成解析文件
- 新主机名注册到公司DNS系统的操作,通过脚本自动化完成