hdfs特点
hdfs是hadoop的分布式文件系统,用于存储大数据,它的特点是:
1.分布式部署,利用廉价的机器存储大数据
2.提供副本机制,容错机制,在机器宕机或副本丢失,自动恢复,默认副本保存3份
关注三个主要节点:
1.NameNode:整个文件系统的管理节点,接收用户的请求,保存着文件/目录的元数据信息和每个文件对应的block的映射列表。在linux系统上,它保存着三个重要文件
a.fsimage,元数据镜像文件,存储某一段时间内的namenode的元数据信息
b.edits,保存操作日志文件
c.fstime,保存最近一次checkpoint的时间
2.DataNode:提供真实文件的数据存储服务,它文件的多个块(Block),block是最基础的存储单位,hdfs默认的块大小的是128M。
3.SecondaryNameNode:冷热备,合并fsimage和fsedits生成新的fsimage,然后再发给namenode,替换旧的fsimage
NameNode元数据详细
NameNode metadata主要存放FileName,replications,block-ids,还有blockid到host的映射,例如,有一个文件名为android.apk写到hdfs