HDFS的读取和写入原理

最新推荐文章于 2024-05-28 16:01:56 发布

_游侠

最新推荐文章于 2024-05-28 16:01:56 发布

阅读量3.5k

点赞数 2

分类专栏： hadoop 文章标签： hdfs hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wzhwei1987/article/details/83066110

版权

hadoop 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

HDFS的读取和写入原理

数据读取请求将由 HDFS、NameNode和DataNode来服务。让我们把读取器叫 “客户端”。

1.HDFS读操作

1、客户端启动通过调用文件系统对象的 open() 方法读取请求;它是DistributedFileSystem 类型的对象。

2、此对象使用 RPC 连接到 namenode 并获取的元数据信息，如该文件的块的位置。请注意，这些地址是文件的前几个块。

3、响应该元数据请求，具有该块副本的 DataNodes 地址被返回。

4、一旦接收到 DataNodes的地址，FSDataInputStream类型的一个对象被返回到客户端。 FSDataInputStream包含DFSInputStream这需要处理交互DataNode和NameNode。在上图所示的步骤4，客户端调用 read() 方法，这将导致DFSInputStream 建立与第一个 DataNode 文件的第一个块连接。

5、以数据流的形式读取数据，其中客户端多次调用 “read() ” 方法。 read() 操作这个过程一直持续，直到它到达块结束位置。

6、一旦到块的结尾，DFSInputStream 关闭连接，移动定位到下一个DataNode 的下一个块。

7、一旦客户端已读取完成后，它会调用 close()方法。

2.HDFS写操作

如何通过的文件将数据写入到 HDFS。

1、客户端通过调用 DistributedFileSystem对象的create() 方法创建一个新的文件，并开始写操作 - 在上面的图中的步骤1；

2、DistributedFileSystem对象使用 RPC 调用连接到 NameNode，并启动新的文件创建。但是，此文件创建操作不与文件任何块相关联。NameNode 的责任是验证文件(其正被创建的)不存在，并且客户端具有正确权限来创建新文件。如果文件已经存在，或者客户端不具有足够的权限来创建一个新的文件，则抛出 IOException 到客户端。否则操作成功，并且该文件新的记录是由 NameNode 创建；

3、一旦 NameNode 创建一条新的记录，返回FSDataOutputStream 类型的一个对象到客户端。客户端使用它来写入数据到 HDFS。数据写入方法被调用(图中的步骤3)。

4、FSDataOutputStream包含DFSOutputStream对象，它使用 DataNodes 和 NameNode 通信后查找。当客户机继续写入数据，DFSOutputStream 继续创建这个数据包。这些数据包连接排队到一个队列被称为 DataQueue；

5、还有一个名为 DataStreamer 组件，用于消耗DataQueue。DataStreamer 也要求 NameNode 分配新的块，拣选 DataNodes 用于复制；

6、现在，复制过程始于使用 DataNodes 创建一个管道。在我们的例子中，选择了复制水平3，因此有3 个 DataNodes 管道；

7、所述 DataStreamer 注入包分成到第一个 DataNode 的管道中。

8、在每个 DataNode 的管道中存储数据包接收并同样转发在第二个 DataNode 的管道中。

9、另一个队列，“Ack Queue”是由 DFSOutputStream 保持存储，它们是 DataNodes 等待确认的数据包。

10、一旦确认在队列中的分组从所有 DataNodes 已接收在管道，它从 'Ack Queue' 删除。在任何 DataNode 发生故障时，从队列中的包重新用于操作。

11、在客户端的数据写入完成后，它会调用close()方法(第9步图中)，调用close()结果进入到清理缓存剩余数据包到管道之后等待确认。

12、一旦收到最终确认，NameNode 连接告诉它该文件的写操作完成。

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
HDFS的读取和写入原理

HDFS的读取和写入原理数据读取请求将由 HDFS、NameNode和DataNode来服务。让我们把读取器叫 “客户端”。1.HDFS读操作1、客户端启动通过调用文件系统对象的 open() 方法读取请求;它是DistributedFileSystem 类型的对象。2、此对象使用 RPC 连接到 namenode 并获取的元数据信息，如该文件的块的位置。请注意，这些地址...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。