HDFS读数据流程、NN和2NN工作机制、DataNode工作机制、数据完整性

最新推荐文章于 2024-05-10 09:00:43 发布

RêverÆ

最新推荐文章于 2024-05-10 09:00:43 发布

阅读量552

点赞数 10

文章标签： hdfs hadoop 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_66383346/article/details/136654192

版权

HDFS读数据流程

事件描述：客户端要下载一个200m的数据文件，hdfs是如何读取的。

两个对象：一个客户端、一个集群

流程:

1.客户端创建一个分布式文件系统（DistributedFileSystem），向集群NameNode请求下载文件。

2.集群判断客户端是否有权限，并判断是否有对应的文件，并返回目标文件元数据。

3.客户端创建一个流对象，选择读取节点的原则：首先考虑节点距离最近，然后要看该节点是否数据量很大，（负载均衡问题）当达到一定的量级后访问其他节点。读取顺序：先读第一块，再读第二块。

NN和2NN工作机制

思考：NameNode中的元数据是存储在哪里？

回答：NameNode元数据存放在内存中。但是一旦断电，元数据丢失。因此产生在磁盘中备份元数据的FsImage。但是内存的元数据更新时，如果同时更新FsImage会导致效率低，为了能够进行更新，引入Edits文件（只进行追加操作，效率高）。每当元数据有更新或者添加元素时，修改内存中的元数据并追加到Edits中。一旦断电，可以通过FsImage和Edits的合并，合成元数据。

工作流程：服务器一启动，将FsIamge和Edits加载到内存。服务器一关机，将Edits和FsImage合并。若Edits追加过多，需要2NN将Edits和FsImage定期合并。

NN和2NN之间的区别是NN中记录了最新的inprogress操作。

DataNode工作机制

工作机制：

1.DataNode启动后向NameNode注册，并汇报DataNode中有哪些块信息。

2.DataNode每周期上报所有块信息。

3.DataNode每过3秒告诉NameNode还活着，若超过3秒没有回复，则再等10分钟，若再超过10分钟，再等30秒，若还是没有收到心跳，则说明该节点不可用。

掉线时限参数设置：

如果hadoop被挂掉了，在被挂掉的hadoop中使用命令即可恢复：

hdfs --daemon start datanode

数据完整性

对原始数据进行封装，使用奇偶校验位，若1的个数是偶数，则为0；若1的个数是奇数则为1；为防止网络传输错误，使用crc校验位，对比传输后的数据看是否一致。

关注

10
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
HDFS读数据流程、NN和2NN工作机制、DataNode工作机制、数据完整性

创建一个流对象，选择读取节点的原则：首先考虑节点距离最近，然后要看该节点是否数据量很大，（负载均衡问题）当达到一定的量级后访问其他节点。3.DataNode每过3秒告诉NameNode还活着，若超过3秒没有回复，则再等10分钟，若再超过10分钟，再等30秒，若。每当元数据有更新或者添加元素时，修改内存中的元数据并追加到Edits中。但是内存的元数据更新时，如果同时更新FsImage会导致效率低，为了能够进行更新，一旦断电，可以通过FsImage和Edits的合并，合成元数据。但是一旦断电，元数据丢失。
复制链接

扫一扫

RêverÆ CSDN认证博客专家 CSDN认证企业博客

码龄3年

22: 原创

109万+: 周排名

5万+: 总排名

1万+: 访问

: 等级

454: 积分

169: 粉丝

230: 获赞

21: 评论

204: 收藏

私信

关注

热门文章

最新评论

MyBatis添加依赖报错
CSDN-Ada助手: 恭喜您发布了第14篇博客！对于遇到MyBatis添加依赖报错这样的问题，您的经验分享对于其他人解决类似困扰会有很大帮助。接下来，或许可以考虑写一些关于MyBatis的使用技巧或者深入源码解析等内容，这样能够更好地帮助读者理解和掌握这个技术。期待您的下一篇作品！愿您在创作的道路上越走越远！
端口号占用问题
CSDN-Ada助手: 恭喜您发布了第15篇博客！对于“端口号占用问题”的探讨让读者受益良多。建议您在未来的创作中，可以考虑深入研究网络安全领域，分享更多关于防火墙设置、数据加密等方面的知识，这将为读者提供更加全面的信息。期待您的下一篇博客！
Mybatis中版本号问题
CSDN-Ada助手: 恭喜您发布了第16篇博客！关于Mybatis中版本号问题的讨论让读者们受益匪浅。希望您能继续保持创作的热情和努力，不断分享有价值的内容给大家。在下一篇博客中，或许可以深入探讨一些实际应用中遇到的问题，并分享解决方案，这样会更加丰富和实用。期待您的下一篇作品！
C3P0连接池jar包问题
CSDN-Ada助手: 恭喜您发布了第17篇博客！关于C3P0连接池jar包问题的文章非常有用，感谢您的分享。接下来，我建议您可以尝试探讨一些常见的错误处理方法，或者分享一些实际应用中的经验与技巧，这样可以让读者更加深入地了解相关主题。期待您更多的精彩作品！
IDEAweb项目配置tomcat步骤报错
CSDN-Ada助手: 恭喜您写了第18篇博客！对于IDEAweb项目配置tomcat步骤报错的问题，您已经很好地进行了分享和解决。希望您继续保持创作的热情和耐心，不断提升自己的技术水平。或许下一步可以考虑分享更多实用的技术经验或者深入研究某个领域，让读者受益匪浅。期待您的下一篇作品！祝您一切顺利！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。