【精】彻底理解HDFS读文件流程

最新推荐文章于 2024-04-25 09:17:55 发布

叹了口丶气

最新推荐文章于 2024-04-25 09:17:55 发布

阅读量308

点赞数

分类专栏： HDFS全方位实战文章标签： hadoop big data

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yexiguafu/article/details/120275623

版权

HDFS全方位实战专栏收录该内容

170 篇文章 147 订阅 ¥29.90 ¥99.00

订阅专栏

读完本文，你将收获如下：
①HDFS读文件的整体流程。
②读取数据过程中的一些细节，例如：如果文件的最后一个block正在写，客户端能否读到？客户端选择哪个DataNode去读？
③ LocatedBlocks对象图解、DFSInputStream关键成员变量的释义等。

下面正式开始本文：

一、前置知识

1.1 LocatedBlocks对象

结构大致如下图所示:

LocatedBlocks

客户端调用getBlockLocations RPC后，NameNode返回给客户端LocatedBlocks对象。包含了文件指定范围内的block所在的DataNode位置locs等信息，其中这个locs数组是经过排序的，排序规则利用了网络的拓扑信息（机架信息），距离Client网络距离最近的DataNode将会排在locs数组的前面。规则如下：

Hadoop采用一个简单的方法：把网络看做一棵树，两个节点间的距离是它们到最近共同祖先的距离总和。该树中的层次是没有预先设定的，但是相对于数据中心、几家和正在运行的节点，通常可以设定等级。具体想法是针对以下每个场景，可用带宽依次递减：

同一个节点上的进程
同一机架上的不同节点
同一数据中心中不同机架上的节点
不同数据中心中的节点

例如，假设有数据中心 d1 机架 r1 中的节点 n1.该节点

了解本专栏

叹了口丶气

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
【精】彻底理解HDFS读文件流程

读完本文，你将收获如下：①HDFS读文件的整体流程。②读取数据过程中的一些细节，例如：如果文件的最后一个block正在写，客户端能否读到？客户端选择哪个DataNode去读？③ LocatedBlocks对象图解、DFSInputStream关键成员变量的释义等。下面正式开始本文：一、前置知识1.1 LocatedBlocks对象结构大致如下图所示:客户端调用getBlockLocations RPC后，NameNode返回给客户端LocatedBlocks对象。包含了文件指定范围内的bl
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

叹了口丶气 觉得有收获就支持一下吧~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。