HDFS的读写操作流程

最新推荐文章于 2024-05-04 21:05:33 发布

有这么个程序员

最新推荐文章于 2024-05-04 21:05:33 发布

阅读量642

点赞数 1

文章标签：大数据 hdfs hadoop

本文链接：https://blog.csdn.net/weixin_45678465/article/details/105321422

版权

本文介绍了HDFS的读写操作流程。HDFS特点是运行在廉价机器上，适合大规模数据批量处理，一次写入多次读取。缺点包括不支持低延迟访问、小文件存储和并发写入。写操作涉及Client、Namenode和DataNode间交互，数据按128M切分，采用强一致性或最终一致性策略。读操作中，Client从Namenode获取元数据，连接最近DataNode读取数据。

摘要由CSDN通过智能技术生成

HDFS简介
HDFS的特点:

特点:
a. 能运行在廉价的机器上
b. 流式数据访问
c.处理应对大规模数据集,可以进行批量处理
d.一次写入,多次读取
缺点:
a. 不支持低延迟数据访问
b.不能适应小文件的存储
c.不支持并发写入
d.不能随机修改,仅支持追加修改

写操作流程:
在这里插入图片描述
1.HDFS的client客户端调用Creat()方法创建写操作输出流
2.向namenode发起写请求的询问,Namenode查看写入文件是否存在,权限信息, 同时将可写入信息的DataNode节点等信息发送给Client端
3. Client端把要写的数据进行切分操作(按照128M切分)向最近的DataNode节点进行写操作的传输.他们之间通过write packet进行传输(默认传输单位,64KB)
4. DataNode每接收完一个packet以后会对第二个,第三个DataNode进行传输
5. 当每个DataNode完成写数据后会返回ack packet
6. Client端完成写操作也关闭输出流
7. Datanode会将写操作成功信息发送给namenode
这楼里需要注意的是: 当前集群是采用强一致性还是最终一致性,
强一致性: 要求所有datanode完成写操作后,才能向namenode进行汇报
最终一致性:随意哪一个datanode完成写操作都会向namenode汇报

读操作流程
在这里插入图片描述
1.客户端Client向Namenode发送读数据请求, 获取要读取的元数据文件地址信息,block所在的datanode位置等信息
2.client同最近的datanode节点建立输入流
3.客户端与datanode之间进行数据传输,以packet为单位
4.关闭输入流