概念
HDFS (Hadoop Distributed File System),Hadoop分布式文件系统,用来存超大文件的。
HDFS 遵循主/从架构,由单个 NameNode(NN) 和多个 DataNode(DN) 组成:
- NameNode : 负责执行有关
文件系统命名空间
的操作,例如打开,关闭、重命名文件和目录等。它同时还负责集群元数据的存储,记录着文件中各个数据块的位置信息。管理员,负责协调。 - DataNode:负责提供来自文件系统客户端的读写请求,执行块的创建,删除等操作。打工人,负责存数据。
使用流程
写文件
有一个文件需要存储到分布式集群上。
客户端提供两个参数:
- blocksize:块大小(默认128M)
- replication factor: 复制因子 (默认3个)
默认情况下,hdfs把文件拆分成一堆128M的块,每个块复制出3个副本,扔到不同的DataNode上存储。
如下图: