HDFS架构和读写流程

最新推荐文章于 2023-03-27 11:02:22 发布

Harvester~

最新推荐文章于 2023-03-27 11:02:22 发布

阅读量223

点赞数

分类专栏： Hadoop 文章标签： hdfs hadoop 架构

本文链接：https://blog.csdn.net/weixin_46292457/article/details/125018286

版权

Hadoop 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

HDFS 读写流程

HDFS组成架构

HDFS,是一个文件系统,用于存储文件,通弄个目录树来定位文件,(分布式的)

HDFS的使用场景:适合一次写入,多次读的场景,且不支持文件的修改
在这里插入图片描述

HDFS快的大小

HDFS中文件物理上是分块存储(Block),块的大小可以通过(dfs.blocksize)来规定,默认大小Hadoop2.x版本128M,老版本中是64M

思考:为什么块的大小不能设置太小,也不能设置太大

1.HDFS的块设置太小,会增加(寻址)寻找的时间,程序一直在找块的开始位置

2.如果太大,从磁盘传输数据的时间明显大于定位这个块开始位置所需要的时间,导致程序在处理这块数据,会非常慢

总结:HDFS块的大小设置主要取决去磁盘的传输速率

HDFS的写数据流程

在这里插入图片描述

1.客户端(通过Distribution FileSystem)向NameNode请求上传文件,(告诉NameName要上传到哪…)NameNode检查目标文件是否已经存在

2.NameNode返回客户是否可以上传

3.客户端根据文件的大小划分块,然后请求第一个Block上传DataNode服务器上

4.NameNode返回3个DataNode结点,分为为dn1 dn2 dn3(返回的三个结点一是根据结点的距离,二是根据负载情况)

5.客户端写数据(创建FSDataOutputStream模块),向返回的是三个DataNode请求上传数据,建立通道(请求dn1上传数据，dn1收到请求会继续调用dn2，然后dn2调用dn3，将这个通信管道建立完成。)

6.dn1 dn2 dn3依次应答客户端

7.客户端开始我那个dn1上传第一个Block(先从磁盘读取数据放到内存存储),以Packet为单位,dn1收到Packet就会传给dn2,dn2传给dn3,dn1没传一个packed就会放入应答队列等待应该

8.当第一个Block传输完成之后.客户端再次请求NameNode上传第二个Balock服务器(重复执行3-7)

HDFS的读数据流程

在这里插入图片描述

1.客户端通过Distribution fileSystem向NameNode请求下载文件,NameoNode通过查询元数据,找到文件块所在的位置

2.挑选一台DataNode(就近原则,然后随机)服务器,请求读取数据

3.DataNode开始传输数据给客户端(从磁盘里面读取数据输入流,以packed为单位来做校验)

4.客户端以Packet为单位接收,先在本地缓存,在写入目标文件

(客户端是现读取一个DataNode之后,关闭流,再去读另外一个DataNode,如果第一个DataNode数据块都在,一次性读完)
在这里插入图片描述

NameNode和SecondaryNameNode面试题重点

思考,NameNode中的元数据是存储在哪里的?

 首先，我们做个假设，如果存储在NameNode节点的磁盘中，因为经常需要进行随机访问，还有响应客户请求，必然是效率过低。因此，元数据需要存放在内存中。但如果只存在内存中，一旦断电，元数据丢失，整个集群就无法工作了。因此产生在磁盘中备份元数据的FsImage。

     这样又会带来新的问题，当在内存中的元数据更新时，如果同时更新FsImage，就会导致效率过低，但如果不更新，就会发生一致性问题，一旦NameNode节点断电，就会产生数据丢失。因此，引入Edits文件(只进行追加操作，效率很高)。每当元数据有更新或者添加元数据时，修改内存中的元数据并追加到Edits中。这样，一旦NameNode节点断电，可以通过FsImage和Edits的合并，合成元数据。

但是，如果长时间添加数据到Edits中，会导致该文件数据过大，效率降低，而且一旦断电，恢复元数据需要的时间过长。因此，需要定期进行FsImage和Edits的合并，如果这个操作由NameNode节点完成，又会效率过低。因此，引入一个新的节点SecondaryNamenode，专门用于FsImage和Edits的合并。

第一阶段：NameNode启动

（1）第一次启动NameNode格式化后，创建Fsimage和Edits文件。如果不是第一次启动，直接加载编辑日志和镜像文件到内存。

（2）客户端对元数据进行增删改的请求。

（3）NameNode记录操作日志，更新滚动日志。

（4）NameNode在内存中对数据进行增删改。

第二阶段：Secondary NameNode工作

（1）Secondary NameNode询问NameNode是否需要CheckPoint。直接带回NameNode是否检查结果。

（2）Secondary NameNode请求执行CheckPoint。

（3）NameNode滚动正在写的Edits日志。

（4）将滚动前的编辑日志和镜像文件拷贝到Secondary NameNode。

（5）Secondary NameNode加载编辑日志和镜像文件到内存，并合并。

（6）生成新的镜像文件fsimage.chkpoint。

（7）拷贝fsimage.chkpoint到NameNode。

（8）NameNode将fsimage.chkpoint重新命名成fsimage。

Harvester~

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
HDFS架构和读写流程

HDFS 读写流程HDFS组成架构HDFS,是一个文件系统,用于存储文件,通弄个目录树来定位文件,(分布式的)HDFS的使用场景:适合一次写入,多次读的场景,且不支持文件的修改HDFS快的大小HDFS中文件物理上是分块存储(Block),块的大小可以通过(dfs.blocksize)来规定,默认大小Hadoop2.x版本128M,老版本中是64M思考:为什么块的大小不能设置太小,也不能设置太大1.HDFS的块设置太小,会增加(寻址)寻找的时间,程序一直在找块的开始位置2.如果太大,从磁盘传
复制链接

扫一扫