HDFS集群的基础知识总结

简介
HDFS是一个分布式文件系统,通过统一的命名空间——目录树来定位文件,由很多的服务器联合起来实现分布式的功能,主要来解决海量数据的存储问题。在大数据系统结构中就是为分布式运算框架提供数据存储服务的。
主要设计思想:“分而治之,冗余备份”。将大文件被切割成小文件,使用分而治之的思想让很多服务器对同一个文件进行联合管理;再者,将每一个小文件做冗余备份并且分散存储到不同的服务器中,做到高可靠不丢失。这样就可以实现使用很多低廉的服务器来存储海量的数据。

架构和各个节点的职责
主从架构:一主多从
主节点(Namenode):集群的老大,掌管文件系统目录树,处理客户端读写请求。
职责:
1. 负责客户端请求(读写数据请求)的响应;
2. 维护目录树结构(元数据存储和管理:查询和修改),元数据的管理是通过WAL(预写日志系统)将所有的修改在提交之前先写入log文件中。
3. 配置和应用副本存放策略;
4. 管理集群数据块负载均衡的问题。
注意:Namennode对元数据的管理采用了两种存储形式:内存和磁盘。Namenode的内存元数据中,包括文件路径,副本数,blockid,每一个block所在Datanode的信息。但在磁盘中的fsimage(元数据镜像)文件中,并不包含每个block所在Datanode的位置。这也是在冷启动集群的时候,集群会进入安全模式一段时间的原因(详情请见四个核心设计中的安全模式章节)。
从节点(Datanode):存储整个集群所有的数据块,真正地处理数据的读写。
职责:
1. 存储管理用户的文件块数据;
2. 定期向Namenode汇报自身所持有的block信息和状态信息(通过心跳和Namenode通讯)。
SecondaryNamenode:严格说并不是Namenode备份节点,主要是为Namenode分担压力,是Namenode的冷备份,辅助保存HDFS元数据的快照(只有在普通的伪分布式集群和分布式集群中才会有SecondaryNamenode这个角色。在HA或者联邦集群中是没有该角色的,因为在HA和联邦集群中会有Standby Namnode来作为Active Namenode的热备份)。
注释:冷备份就是假设a是b的冷备份&#x

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值