一、HDFS的基本概念
1.1、数据块(block)
- HDFS(Hadoop Distributed File System)默认的最基本的存储单位是64M的数据块。
- 和普通文件系统相同的是,HDFS中的文件是被分成64M一块的数据块存储的。
- 不同于普通文件系统的是,HDFS中,如果一个文件小于一个数据块的大小,并不占用整个数据块存储空间。
1.2、元数据节点(Namenode)和数据节点(datanode)
- 元数据节点用来管理文件系统的命名空间
- 其将所有的文件和文件夹的元数据保存在一个文件系统树中。
- 这些信息也会在硬盘上保存成以下文件:命名空间镜像(namespace image)及修改日志(edit log)
- 其还保存了一个文件包括哪些数据块,分布在哪些数据节点上。然而这些信息并不存储在硬盘上,而是在系统启动的时候从数据节点收集而成的。
- 数据节点是文件系统中真正存储数据的地方。
- 客户端(client)或者元数据信息(namenode)可以向数据节点请求写入或者读出数据块。
- 其周期性的向元数据节点回报其存储的数据块信息。
- 从元数据节点(secondary namenode)
- 从元数据节点并不是元数据节点出现问题时候的备用节点,它和元数据节点负责不同的事情。
- 其主要功能就是周期性将元数据节点的命名空间镜像文件和修改日志合并,以防日志文件过大。这点在下面会相信叙述。
- 合并过后的命名空间镜像文件也在从元数据节点保存了一份,以防元数据节点失败的时候,可以恢复。
1.2.1、元数据节点文件夹结构