hadoop运维常见问题

最新推荐文章于 2024-05-09 22:44:31 发布

无敌的小妖怪

最新推荐文章于 2024-05-09 22:44:31 发布

阅读量431

点赞数

本文链接：https://blog.csdn.net/yuangejiageiwohaoma/article/details/118548047

版权

HDFS的架构原理和各核心组件的作用及关系

HDFS(Hadoop Distribute FIleSystem) 用来处理海量数据的存储，是hadoop的分布式文件系统。
核心组件：
NameNode DataNoad SecondaNmenode

NameNode：整个集群的元数据节点，主要负责存储整个集群的元数据信息（位置、大小、owner、操作时间等）和相应客户端的请求，管理数据块的映射，配置副本策略等

DataNode：实际存储数据块的地方，进行数据的读写

SecondNamenode：
1、NameNode初始化时会产生一个edits文件和一个fsimage文件。
2、随着edits文件不断增大，当达到设定的阀值时，Secondary NameNode把edits文件和fsImage文件复制到本地，同时NameNode会产生一个新的edits文件替换掉旧的edits文件，这样以保证数据不会出现冗余。
3、Secondary NameNode拿到这两个文件后，会在内存中进行合并成一个fsImage.ckpt的文件（这个过程称为checkpoint），合并完成后，再将fsImage.ckpt文件复制到NameNode下。
4、NameNode文件拿到fsImage.ckpt文件后，会将旧的fsimage文件替换掉，并且改名成fsimage文件。

通过以上几步则完成了edits和fsimage文件的合并，依此不断循环，从而到达保证元数据的正确性。

读写流程
读流程：
1、HDFS客户端提交读操作到NameNode上，NameNode收到客户端提交的请求后，会先判断此客户端在此目录下是否有读权限，如果有，则给客户端返回存放数据块的节点信息，即告诉客户端可以到相关的DataNode节点下去读取数据块；
2、客户端拿到块位置信息后，会去和相关的DataNode直接构建读取通道，读取数据块，当所有数据块都读取完成后关闭通道，并给NameNode返回状态信息，告诉NameNode已经读取完毕。
写流程：
1、HDFS客户端提交写操作到NameNode上，NameNode收到客户端提交的请求后，会先判断此客户端在此目录下是否有写权限，如果有，然后进行查看，看哪几个DataNode适合存放，再给客户端返回存放数据块的节点信息，即告诉客户端可以把文件存放到相关的DataNode节点下。
2、客户端拿到数据存放节点位置信息后，会和对应的DataNode节点进行直接交互，进行数据写入，由于数据块具有副本replication，在数据写入时采用的方式是先写第一个副本，写完后再从第一个副本的节点将数据拷贝到其它节点，依次类推，直到所有副本都写完了，才算数据成功写入到HDFS上，副本写入采用的是串行，每个副本写的过程中都会逐级向上反馈写进度，以保证实时知道副本的写入情况。
3、随着所有副本写完后，客户端会收到数据节点反馈回来的一个成功状态，成功结束后，关闭与数据节点交互的通道，并反馈状态给NameNode,告诉NameNode文件已成功写入到对应的DataNode。

最低0.47元/天解锁文章

无敌的小妖怪

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
hadoop运维常见问题

HDFS的架构原理和各核心组件的作用及关系HDFS(Hadoop Distribute FIleSystem) 用来处理海量数据的存储，是hadoop的分布式文件系统。核心组件：NameNode DataNoad SecondaNmenodeNameNode：整个集群的元数据节点，主要负责存储整个集群的元数据信息（位置、大小、owner、操作时间等）和相应客户端的请求，管理数据块的映射，配置副本策略等DataNode：实际存储数据块的地方，进行数据的读写SecondNamenode：.
复制链接

扫一扫