Hadoop Distributed File System——HDFS

最新推荐文章于 2024-05-17 19:36:24 发布

eddieVim

最新推荐文章于 2024-05-17 19:36:24 发布

阅读量227

点赞数

分类专栏： Hadoop 文章标签： hadoop 大数据

本文链接：https://blog.csdn.net/weixin_44129784/article/details/104303431

版权

Hadoop 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

HADOOP——HDFS

HDFS定义：
（Hadoop Distributed File System），它是一个文件系统，用于存储文件，通过目录树来定位文件。其次，它是分布式的，由很多服务器联合起来实现，集群中的服务器有各自的角色。
使用场景：
适合一次写入，多处读出的场景，且不支持文件的修改。适合用来做数据分析，不适合做网盘应用。
优缺点：
- 高容错率：自动保存多个备份副本，以增加副本的形式，提高容错率。某一个副本丢失后，它可以自动恢复。
- 适合处理大数据。
- 构建在廉价机器上，通过多副本机制，提高可靠性。
缺点：
- 不适合低延时数据访问。
- 无法高效存储小文件。
  1、存储小文件会占用大量NameNode内存存储目录和块信息，这样是不可取的，因为内存总是有限。2、小文件的存储的寻址时间超过了读取时间，违反了HDFS设计目标。
- 不支持并发写入，文件随机修改。
  1、一个文件只能有一个进程写，不允许多个进程同时写。2、仅支持数据append（追加），不支持文件的随机修改。

「NameNode、DataNode、SecondaryNameNode」

1、NameNode（NN）：

HDFS的主管，管理HDFS的名称空间，配置副本策略，管理数据块映射信息，处理客户端读写请求。

2、DataNode（DN）：

以块（block）的形式存放数据本身，有多个DN存放多个备份，以达到安全性更高的目的。存储实际的数据，实际操作数据块的读写操作。

3、SecondaryNameNode（2NN）：

辅助NN工作，分担起工作量，（定期合并Fsimage和Edits）用于帮助NN恢复信息，但是不能取代NN继续工作。

HDFS的文件块大小

HDFS在物理上是分块存储，块的大小可以通过配置参数（dfs.block）来规定，默认大小在Hadoop2.x版本中是128M，老版本是64M。

块的设置太小，会增加寻址时间，程序一直在找块的开始位置。
设置太大，从磁盘传输数据的时间会明显大于定位这个块开始位置所需的时间。导致程序在处理这块数据时，会非常慢。

总结：HDFS块大小设置主要取决于磁盘的传输速率。

HDFS写数据

在这里插入图片描述
流程如图所示。写数据过程中，会选择与上传数据最近距离的DataNode进行上传，距离按照网络拓扑距离计算。

HDFS读数据

在这里插入图片描述

NN和2NN的工作机制

NameNode是用户取得数据的中间组件，因为频繁地处理操作，故数据是存放在内存中，以提高效率。但是内存在断电后，数据将丢失，所以要以Fsimage来保存数据，以防止数据的丢失。但是，备份Fsimage是一个比较耗费资源的事，不能经常进行，不能频繁进行就会导致若断电将会有一小段操作丢失。故引入了Edits，来记录这一段小操作。（Edits是以追加记录的形式记录的。效率高）故一旦结点断电可以快速利用Fsimage和Edits来恢复内存数据。但是，长时间添加数据到Edits中，会导致该文件数据过大，而且一旦断电，恢复Edits的效率远低于Fsimage，效率降低。则要经常将两者合并。如果这个工作让NN完成，又会影响到效率。因此，引入新节点来合并Fsimage和Edits。在这里插入图片描述

DN工作机制

eddieVim

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hadoop Distributed File System——HDFS

HADOOP——HDFS包括了「NameNode、DataNode、SecondaryNameNode」1、NameNode（NN）：存放数据文件的索引。2、DataNode（DN）：以块（block）的形式存放数据本身，有多个DN存放多个备份，以达到安全性更高的目的。3、SecondaryNameNode（2NN）：NN的备份，用于帮助NN恢复信息，但是不能取代NN继续工作。...
复制链接

扫一扫