HDFS集群的基础知识总结

最新推荐文章于 2024-06-29 17:09:02 发布

QianL.

最新推荐文章于 2024-06-29 17:09:02 发布

阅读量494

点赞数 1

分类专栏： HDFS 文章标签： HDFS

本文链接：https://blog.csdn.net/weixin_44319333/article/details/88979363

版权

简介
HDFS是一个分布式文件系统，通过统一的命名空间——目录树来定位文件，由很多的服务器联合起来实现分布式的功能，主要来解决海量数据的存储问题。在大数据系统结构中就是为分布式运算框架提供数据存储服务的。
主要设计思想：“分而治之，冗余备份”。将大文件被切割成小文件，使用分而治之的思想让很多服务器对同一个文件进行联合管理；再者，将每一个小文件做冗余备份并且分散存储到不同的服务器中，做到高可靠不丢失。这样就可以实现使用很多低廉的服务器来存储海量的数据。

架构和各个节点的职责
主从架构：一主多从
主节点（Namenode）：集群的老大，掌管文件系统目录树，处理客户端读写请求。
职责：
1. 负责客户端请求（读写数据请求）的响应；
2. 维护目录树结构（元数据存储和管理：查询和修改），元数据的管理是通过WAL（预写日志系统）将所有的修改在提交之前先写入log文件中。
3. 配置和应用副本存放策略；
4. 管理集群数据块负载均衡的问题。
注意：Namennode对元数据的管理采用了两种存储形式：内存和磁盘。Namenode的内存元数据中，包括文件路径，副本数，blockid，每一个block所在Datanode的信息。但在磁盘中的fsimage（元数据镜像）文件中，并不包含每个block所在Datanode的位置。这也是在冷启动集群的时候，集群会进入安全模式一段时间的原因（详情请见四个核心设计中的安全模式章节）。
从节点（Datanode）：存储整个集群所有的数据块，真正地处理数据的读写。
职责：
1. 存储管理用户的文件块数据；
2. 定期向Namenode汇报自身所持有的block信息和状态信息（通过心跳和Namenode通讯）。
SecondaryNamenode：严格说并不是Namenode备份节点，主要是为Namenode分担压力，是Namenode的冷备份，辅助保存HDFS元数据的快照（只有在普通的伪分布式集群和分布式集群中才会有SecondaryNamenode这个角色。在HA或者联邦集群中是没有该角色的，因为在HA和联邦集群中会有Standby Namnode来作为Active Namenode的热备份）。
注释：冷备份就是假设a是b的冷备份&#x

最低0.47元/天解锁文章

QianL.

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
HDFS集群的基础知识总结

简介HDFS是一个分布式文件系统，通过统一的命名空间——目录树来定位文件，由很多的服务器联合起来实现分布式的功能，主要来解决海量数据的存储问题。在大数据系统结构中就是为分布式运算框架提供数据存储服务的。主要设计思想：“分而治之，冗余备份”。将大文件被切割成小文件，使用分而治之的思想让很多服务器对同一个文件进行联合管理；再者，将每一个小文件做冗余备份并且分散存储到不同的服务器中，做到高可靠不丢失...
复制链接

扫一扫

专栏目录