本文主要介绍如何通过Federation使用多个独立的Namenodes Namespaces水平扩展命名空间。Namenodes彼此独立,互不通信,可以共享相同的Datanode存储。
在Hadoop 1.0中,HDFS的单NameNode设计带来诸多问题,包括单点故障、内存受限制约集群扩展性和缺乏隔离机制(不同业务使用同一个NameNode导致业务相互影响)等。为了解决这些问题, Hadoop 2.0就引入了基于共享存储的HA解决方案和HDFS Federation,HDFS Federation是指HDFS集群可同时存在多个NameNode,这些NameNode分别管理一部分数据,且共享所有DataNode存储资源。
Apache Hadoop 分布式文件系统(HDFS)具有高度可扩展性,可支持PB级群集。但是,整个命名空间(文件系统元数据)存储在内存中。因此,即使存储可以水平扩展,命名空间也只能垂直扩展,它受限于单个NameNode进程可存储的文件、块和目录的数量。
本文主要介绍如何通过Federation使用多个独立的Namenodes/Namespaces水平扩展命名空间。Namenodes彼此独立,互不通信,可以共享相同的Datanode存储。Federation和Namespaces可以为整个集群提供可伸缩性,Federation增加了对Namespace水平扩展的支持;添加更多的NameNode,增加集群的聚合读/写能力和吞吐量;用户和应用程序可以通过Namenodes隔离。
1、示例
Federation在可伸缩性、性能和隔离方