HDFS概述（背景、优缺点、架构、块大小）

最新推荐文章于 2022-04-07 18:42:11 发布

Emeraki

最新推荐文章于 2022-04-07 18:42:11 发布

阅读量801

点赞数

分类专栏： Hadoop 文章标签： hdfs hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43975148/article/details/109265255

版权

Hadoop 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

第一章 HDFS概述

1，HDFS产生背景

随着数据量越来越大，在一个操作系统下存放不下所有的数据，那么就分配到更多的操作系统管理的磁盘中，但是却不方便管理和维护。于是就迫切的需要一种系统来管理多台机器上的文件，这就是分布式文件系统，HDFS即hadoop distributed file system，是分布式文件管理系统中的一种。

HDFS是一个文件系统，用于存储文件，通过目录树来定位文件。其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器各司其职。

HDFS的使用场景：适合一次写入，多次读出的场景，且不支持文件的修改，适合用来做数据分析，不适合做网盘应用。

2，HDFS优缺点

（2.1）优点

（1）高容错性

① 数据自动保存多个副本，默认为三个。它通过增加副本的形式，提高容错性。
② 某一个副本丢失后，可以自动恢复。

（2）适合处理大数据

① 数据规模：能够处理数据规模达到GB，TB，甚至PB级别的数据。
② 文件规模：能够处理百万规模以上的文件数量。

（3）可以构建在廉价机器上，通过多副本机制，提高可靠性。

（2.2）缺点

（1）不适合低延时数据访问，比如毫秒级的数据存储，做不到。

（2）无法高效的对大量小文件进行存储。

① 存储大量小文件的话，它会占用NameNode大量的内存来存储文件的目录和块信息，这样是不可取的，因为NameNode的内存总是有限的。
② 小文件存储的寻址时间会超过读取时间，他违反了HDFS的设计目标。

（3）不支持并发写入，文件随机修改

① 一个文件只能有一个写，不允许多个线程同时写。
② 仅支持数据append（追加），不支持文件的随机修改。

3，HDFS架构

HDFS架构图
上图中涉及到的主要有以下这些：

（3.1）NameNode

NameNode（nn）就是Master，它是一个主管，管理者。
① 管理HDFS名称空间；
② 配置副本策略；
③ 管理数据块（Block）的映射信息；
④ 处理客户端读写请求；

（3.2）DataNode

DataNode（dn）就是slave，NameNode下达命令，DataNode负责执行实际的操作。
① 存储实际的数据块；
② 执行数据块的读、写操作；

（3.3）Client

就是客户端
① 文件切分，文件上传HDFS的时候，Client将文件切分为一个一个的Block，然后进行上传；
② 与NameNode交互，获取文件的位置信息；
③ 与DataNode交互，读取或者写入数据；
④ Client提供一些命令来管理HDFS，比如NameNode格式化；
⑤ Client可以通过一些命令来访问HDFS，比如对HDFS的增删查改操作；

（3.4）Secondary NameNode

① 辅助NameNode，分担其工作量，比如定期合并Fsimage和Edits，并推送给NameNode；
~~② 在紧急情况下，可以辅助恢复NameNode~~ ；（现在已经不用这个了）

4，HDFS块大小

HDFS中的文件在物理上是分块存储，块的大小可以通过配置参数（dfs.blocksize）来规定，默认大小在Hadoop2.x版本中是128M，老版本是64M。

块不能设置过大或过小
① HDFS块设置过小，会增加寻址时间，程序一直在找块的开始位置。
② 块过大，从磁盘传输数据的时间会明显大于寻址时间（定位这个块的开始位置的时间），导致程序在处理这些数据块时非常慢。

总结：HDFS块的大小设置主要取决于磁盘传输效率

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
HDFS概述（背景、优缺点、架构、块大小）

第一章 HDFS概述（1）HDFS产生背景随着数据量越来越大，在一个操作系统下存放不下所有的数据，那么就分配到更多的操作系统管理的磁盘中，但是却不方便管理和维护。于是就迫切的需要一种系统来管理多台机器上的文件，这就是分布式文件系统，HDFS即hadoop distributed file system，是分布式文件管理系统中的一种。 HDFS是一个文件系统，用于存储文件，通过目录树来定位文件。其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器各司其职。 HDFS的使用场景：适
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。