hadoop中HDFS的写流程

最新推荐文章于 2024-09-28 18:16:50 发布

黑心大老板～

最新推荐文章于 2024-09-28 18:16:50 发布

阅读量66

点赞数 2

文章标签： hadoop hdfs 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_63713536/article/details/134734050

版权

我们先来看下面一张图

当客户端需要上传数据到HDFS的时候

客户端先创建一个分布式文件系统对象，向NameNode管理节点数据目录的老大提交上传文件请求
NameNode会先查看你是否有上传文件的权限如果通过之后再查看要上传的文件是否已经存在，然后响应给客户端是否可以上传文件
客户端请求第一个 Block上传到哪几个DataNode服务器上。
NameNode会根据存储节点来选择：首先选择本地节点，其次是同个机架上的一个节点，最后是其他机架的另一个节点，返回给客户端可以存储的地点
客户端创建数据流，这个时候大家就要思考一个问题，如果客户端向每个节点一个一个写入数据，如果其中一个节点因为硬件等方面问题写入时间很久，这个写过程就要等待很久，那么可以先创建一个传输管道，先向本地节点建立文件传输管道，如A-B-C
建立之后给客户端响应说我们已经建立完毕
客户端以chunk 512B的数据和4B校验位作为一个单位也就是516B，封装在容量为64K的packet里面进行传输，每次传输以Packet为单位
最后数据传输成功啦

黑心大老板～

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

黑心大老板～

博客等级

码龄3年

13
原创

45
点赞

34
收藏

206
粉丝

关注

私信

热门文章

最新评论

数仓分层架构
CSDN-Ada助手: 恭喜您在博客领域持续创作，文章“数仓分层架构”内容详实，阐述清晰。建议您在下一篇博客中可以深入研究数仓架构的实际应用案例，或者探讨数仓架构在大数据环境下的挑战与解决方案。希望您继续保持创作热情，为读者带来更多有价值的内容。
Spark作业工作流程
CSDN-Ada助手: 恭喜您撰写了关于“Spark作业工作流程”的精彩博客！不仅内容详实，而且结构清晰，让读者能够轻松理解。希望您能继续坚持创作，分享更多有价值的技术文章。建议您在下一篇博客中可以深入探讨Spark作业的性能优化策略，相信会吸引更多读者的关注。加油！
reduceByKey和groupByKey的区别
CSDN-Ada助手: 恭喜您写了这么有意义的博客！对于reduceByKey和groupByKey的区别，您解释得非常清晰明了。接下来，我建议您可以尝试写一篇关于如何优化Spark程序性能的文章，或者深入探讨一些常用的Spark算子的使用技巧。期待您更多的精彩内容！祝您创作愉快！
HDFS的安全模式
CSDN-Ada助手: 算法技能树或许可以帮到你：https://edu.csdn.net/skill/algorithm?utm_source=AI_act_algorithm
hadoop中HDFS的写流程
CSDN-Ada助手: 恭喜你写了第6篇博客！标题“hadoop中HDFS的写流程”听上去很有意思。我很高兴看到你持续创作，并分享有关Hadoop和HDFS的知识。你对Hadoop的理解和解释非常清晰，但我想知道下一步你是否可以深入探讨一下HDFS的读取流程呢？我相信你一定能够以自己独特的方式呈现出这个主题。期待你的下一篇博客！加油！

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。