本节我们主要写Secondary NameNode是如何合并命名空间文件和编辑日志文件。
//-------------------------------------------------------------------------------------------------------------------------------------
Namenode 是 HDFS 的元数据服务器,管理并协调数据节点 Datanode 的工作,其内存中保存整个分布式文件系统的 2 类元数据:
(1)文件系统的名字空间,即系统目录树(恢复这个需要FsImages和Edit logs)。
(2)数据块副本与 Datanode 的映射,即副本的位置。
第(1)类元数据在 Namenode 上定期持久化,保存为镜像文件。数据块副本的位置信息没有实现持久化,而是在Namenode 启动时,通过接收 Datanode 的 Blockreport 获得。
//--------------------------------------------------------------------------------------------------------------------------------------
客户端对HDFS的文件系统目录树进行的任何修改,都会被记录到编辑日志(edits)文件中,以保证系统出现故障后,能够根据这些日志进行恢复,但是随着日志不断地增加,这意味着系统重启后,需要进行恢复的时间也就越长。为了避免这一情况的发生,HDFS引入了检查点(checkpoint)机制。
命名空间镜像(FSImage)文件是系统的持久性检查点,和编辑日志不同,它不能在客户端做的每次修改后都及时更新。故命名空间镜像再加上编辑日志,NameNode节点的元数据提供了安全保障。在NameNode启动时,首先会将磁盘上(存在NameNode的磁盘上)的fsiamge命名空间镜像文件读入内存,恢复到某个时间的检查点,然后再读取编辑日志,进行重建(也可以成为合并)。
Hadoop中引入了第二命名节点Secondary NameNode节点,就是为了解决编辑日志随时间不断的增长,NameNode节点重启后要花很长时间来执行编辑日志中的每一个操作(来进行合并),这种情况。
Secondary NameNode节点的工作流程:
1)、定期的通过远程方法获取NameNode节点上编辑日志(edits)的大小;
2)、如果NameNode节点上编辑日很小,就不需要合并NameNode上的fsimage文件和编辑日志;
3)、通过远程接口启动一次检查点过程,这时名字节点NameNode需要创建一个新的编辑日志文件edits.new,后续对文件系统的任何修改都记录到这个新编辑日志里;
4)、SecondNameNode点将Namenode上的fsimage文件和原编辑日志下载到本地,并在内存中合并,合并的结果输出为fsimage.ckpt;
5)、再次发起请求通知NameNode节点数据(fsimage.ckpt)已准备好,然后NameNode节点会下载fsimage.ckpt(并替换掉原来的fsimage);
6)、NameNode下载结束后,Secondary NameNode会通过远程调用(NameNodeProtocol.rollFsImage())完成这次检查点,NameNode在响应该远程调用时,会用fsimage.ckpt覆盖原来的fsimage文件,形成新的命名空间镜像,同时将新的编辑日志edits.new改名为edits。
整个流程如下图示: