HDFS的设计目的:HDFS(Hadoop Distributed File System )是Hadoop分布式文件系统,设计目的是为了存储超大文件,主要是针对几百MB,GB,甚至TB的文件,流式读取方式,主要是针对一次写入,写入的过程使用的是append的方式,多次读出的使用模式。
该分布式系统构建在普通PC机组成的集群上,大大降低了构建成本,并屏蔽了系统故障,保存多个副本,且提供容错机制,副本丢失或宕机自动恢复(默认存3份),使得用户可以专注于自身的操作运算。
HDFS由一个Namenode. 一个Secondary Namenode 若干Datanodes和Client组成 并且采用主从结构 存储的基本单位是块
Namenode相当于书的目录
NameNode不存储实际的文件数据,实际数据是存储在DataNode中,他存储的是文件分块的基础数据;能通过文件获取文件的快列表及其分布在哪些dataNode上。
NameNode并不会将文件的分块数据持久化存储,这些信息会在HDFS启动时由各个dataNode上报过来。他把这些数据存入内存中。并且会定时对内存中的数据进行快照。所以对于NameNode节点的机器内存应该大一些。
Datenode相当于书的正文
一章是一个文件 一节是一个块 目录成为元数据 目录指名的各章节页码 成为映射 用户访问数据 首先访问Namenode
HDFS采用块抽象概念的好处: 支持大规模文件存储 简化系统设计 适合数据备份。
一个块为64~128MB
HDFS的基本原理
最新推荐文章于 2024-03-21 12:17:27 发布