一、什么是HDFS
Hadoop实现了一个分布式文件系统,源自于Google的GFS论文
二、HDFS的设计目标
非常巨大的分布式文件系统
运行在普通廉价的硬件上
易扩展、为用户提供性能不错的文件存储服务三、HDFS的架构
1、Master(NameNode) 带N个Slaves(DataNode)
NameNode管理文件系统的spaces和客户端访问
DataNode管理数据存储到节点上去
一个文件会被拆分成多个Block blockSize:128M。这些Block被存储到DataNode
NameNode负责文件系统的读写操作
DataNode负责Block的操作
归纳:
NN:(1)负责客户端请求的响应(2)负责元数据(文件的名称、副本系统、Block存放的DN)的管理
DN:(1)真正的数据存储,存储用户的文件对应的数据块(Block)(2)要定期想NN发送心跳信息,汇报本身及其所有block
信息和健康状态
典型的架构:一台机器部署一个NN,其他机器单独部署DN
还有一个SecondNameNODe在2.X中已经不是必须的四、HDFS的副本机制
HDFS支持层级结构,和Windows相似
HDFS不支持多并发写
从官网扣的图