HDFS读写数据流程

最新推荐文章于 2024-06-11 05:30:00 发布

千里快哉风Y

最新推荐文章于 2024-06-11 05:30:00 发布

阅读量110

点赞数 1

分类专栏： Hadoop

本文链接：https://blog.csdn.net/weixin_44502024/article/details/114699084

版权

Hadoop 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

HDFS读数据流程
1、客户端向NameNode发送下载文件请求，NameNode通过查询元数据，找到文件块所在的DataNode服务器
2、挑选一台DataNode服务器，请求读取数据（就近原则，如果距离一样则随机挑选）
3、DataNode向客户端发送数据（从磁盘里面读取数据流，以packet为单位来做校验)
4、客户端以packet为单位接收，先在本地缓存，然后写入目标文件，然后将每块的数据拼接起来组合成一个完整的文件

HDFS写数据流程
1.客户端向NameNode发起写文件请求，NameNode检查目标文件是否已存在，检查权限等，然后返回是否可以上传
2.如果可以上传的话，客户端先对文件进行切分，请求第一个block（128M）该传输到哪些DataNode服务器上
3.NameNode返回几个DataNode节点，表示用这几个节点存储数据。
4.客户端向DataNode 1发起上传数据请求，DataNode 1收到请求会继续调用DataNode 2，然后DataNode 2调用DataNode 3，将整个pipeline建立完成，然后逐级返回客户端
5.客户端往DataNode 1上传第一个block，数据以packet（64kb）为单位进行传输，DataNode 1收到一个packet会传给DataNode 2，2传给3，写入的时候DataNode会以chunk为单位进行数据校验（512byte）
6.当第一个block传输完成之后，客户端再次向NameNode发起上传第二个block的请求

客户端将文件切分为Block，依次上传，它只上传数据到一台DataNode，NameNode负责复制
Block块太小：增加寻址时间占比
Block块太大：作业执行时间变长