hdfs的文件读取与写入流程

最新推荐文章于 2024-06-05 08:04:47 发布

wyfly69

最新推荐文章于 2024-06-05 08:04:47 发布

阅读量4.5k

点赞数

HDFS客户端文件读取过程如下：

应用程序通过HDFS客户端向NameNode发生远程调用请求。
NameNode收到请求之后，返回文件的块列表信息。块列表信息中包含每个block拷贝的datanode地址。
HDFS 客户端会选择离自己最近的那个拷贝所在的datanode来读取数据。
数据读取完成以后，HDFS客户端关闭与当前的datanode的链接。

如果文件没有读完，HDFS客户端会继续从NameNode获取后续的block信息，每读完一个块都需要进行校验和验证，如果读取出错，HDFS客户端会通知NameNode，重新选择一个该block拷贝的datanode读数据。

HDFS客户端文件写入过程如下：

1.应用程序通过HDFS客户端向NameNode发起远程过程调用请求。
2.NameNode检查要创建的文件是否存在以及是否有足够的权限。
3.如果检测成功，NameNode会返回一个该文件的记录，否则让客户端抛出异常。
4.HDFS客户端把文件切分为若干个packets，然后向NameNode申请新的blocks存储新增数据。
5.NameNode返回用来存储副本的数据节点列表。
6.HDFS客户端把packets中的数据写入所有的副本中。
7.最后一个节点数据写入完成以后，客户端关闭。

文件写入中的副本策略：

1) Hadoop默认副本策略是将第一个复本放在运行客户端的节点上，即上传文件或者写入文件所在的datanode节点上。如果客户端不在集群中，则就随机选择一个节点。

2) 第二个复本放在与第一个复本不同且随机的另外的机架上。

3) 第三个复本与第二个复本放在相同的机架上。

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
hdfs的文件读取与写入流程

HDFS客户端文件读取过程如下：应用程序通过HDFS客户端向NameNode发生远程调用请求。NameNode收到请求之后，返回文件的块列表信息。块列表信息中包含每个block拷贝的datanode地址。HDFS 客户端会选择离自己最近的那个拷贝所在的datanode来读取数据。数据读取完成以后，HDFS客户端关闭与当前的datanode的链接。如果文件没有读完，HDFS客户端会继续从NameNo...
复制链接

扫一扫

wyfly69 CSDN认证博客专家 CSDN认证企业博客

码龄7年

9: 原创

31万+: 周排名

52万+: 总排名

3万+: 访问

: 等级

422: 积分

27: 粉丝

25: 获赞

7: 评论

50: 收藏

私信

关注

热门文章

分类专栏

python，笔记 8篇

最新评论

hadoop的三大核心组件之HDFS和YARN
夕阳下的独行者: 为什么是10份？不是分发到每个节点？
hadoop的三大核心组件之HDFS和YARN
doufanfan 回复 doufanfan: 半吊子尝试回答一下，因为yarn和hdfs实际上也是要运行在机器上的，说的”物理上常在一起“指的就是yarn和hdfs实际上是运行在同一批机器上的，而且spark秉持”运算去靠近数据“的原则，数据的存储位置就是hdfs的datanode节点，而运算又是在yarn的nodeManager节点上实现的，所以通常一个运算用的数据所在的hdfs的datanode节点和运算所在的yarn的nodeManager节点就在一个物理机器上，我觉得这就是为什么说它俩物理常在一起的原因。
hadoop的三大核心组件之HDFS和YARN
doufanfan: 楼主，能稍微解释一下什么叫物理上yarn和hdfs常在一起？有点搞不清楚这两个东西的关系，在spark运行在yarn集群上时
hadoop的三大核心组件之HDFS和YARN
站在巨人的肩膀Coding: 很详细
hadoop的三大核心组件之HDFS和YARN
qq_39581956: 还行，谢谢博主

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。