HDFS读、写数据操作

木鬼与槐

已于 2024-08-01 00:12:09 修改

阅读量210

点赞数 8

分类专栏： HDFS Hadoop生态圈文章标签： hdfs hadoop 大数据

于 2024-08-01 00:09:50 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_58305115/article/details/140835221

版权

HDFS 同时被 2 个专栏收录

1 篇文章 0 订阅

订阅专栏

Hadoop生态圈

1 篇文章 0 订阅

订阅专栏

编辑流程步骤

HDSF读数据

流程步骤

客户端向namenode发送请求，确定block在datanode上的位置。
namenode接收到请求后会判断是否有读数据的权限，再根据情况来返回部分或者全部的block列表且返回datanode地址。
这些返回的datanode地址，会根据网络拓扑关系得出datanode和客户端的距离，然后进行排序。
客户端会选择靠前的datanode来读取数据，如果客户端本身就是datanode，那么将从本地直接来获取数据。
当读完数据列表后，若文件读取还没有结束，客户端会继续向namenode获取下一个block列表和datanode地址，直到所有数据读取完毕。
最后将读取的数据进行排序，形成最终文件。

HDFS写数据

流程步骤

首先客户端向namenode发送写数据的请求，namenode接收到请求，需要判断是否有权限和目标文件是否存在，返回客户端是否可以上传，
接着客户端会向namenode询问block传输到哪些datanode上，namenode根据副本机制（一般默认为3副本策略）、网络拓扑关系、机架感知原理来进行分配。
客户端请求第一台上传数据，第一台收到请求继续调用第二台，以此类推，形成一个管道，后逐级返回客户端。
此时客户端向第一台上传block块，以64k的包为单位，第一台传给第二台，以此类推
数据被分割成数据包在管道上依次传输，在反方向上，逐个发送ack校验，最终由第一个datanode将ack发送给客户端
当一个block块传输完毕后，客户端会再向namenode请求下一个block的存放位置，直到所有的块传输完毕。

关注

8
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
HDFS读、写数据操作

NameNode负责管理整个文件系统元数据；DataNode负责管理具体文件数据块存储；Secondary NameNode协助NameNode进行元数据的备份。主从架构（一个namenode和多个datanode）文件是以128M块（block）存储，以64K的数据包传送。hadoop 1.X是64M元数据是关于数据的信息，包括文件名、文件大小、文件权限等。Namenode通过创建元数据本地存储目录和一些初始化的元数据相关文件来管理和维护这些信息。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。