Hadoop3教程（二）：HDFS的定义及概述

经年藏殊

已于 2023-10-13 18:44:12 修改

阅读量547

点赞数

分类专栏：大数据技术文章标签： hdfs hadoop 大数据

于 2023-10-13 18:43:13 首次发布

本文链接：https://blog.csdn.net/wlh2220133699/article/details/133816453

版权

37 篇文章 9 订阅

订阅专栏

（40）HDFS产生的背景和定义

随着实际生产环境中的数据越来越大，在一台服务器上无法存储下所有的数据，那么就要把数据分散到多台服务器的磁盘里存放。但是像这样做跨服务器的数据管理和维护是很难的，所以就迫切需要一种方式，来协调管理多台机器上的文件，这就是分布式文件管理系统。

HDFS就是最有名气的一种分布式文件管理系统，除此之外还有Google的GFS、淘宝自研的TFS等。

HDFS（Hadoop Distributed File System），就是分布式文件管理系统的一种，它本质上是一个文件系统。

它可以分布式的（在多台服务器节点上），以目录树的形式来存储和定位文件。

跟windows的NTFS文件系统是一样的。

HDFS的使用场景：适合一次写入，多次读出的场景。如果是需要频繁update的场景，其实是不适合HDFS。当然，只是不适合，不是不能用，完全可以用delete + 重新insert的方式，来实现update。

HDFS的优点：

1）高容错性

2）适合处理大数据（只要资源够，处理上限很高）

3）可以构建在廉价的机器上，通过多副本机制，提高可靠性。

HDFS的缺点：

1）低延时数据访问不合适，毫秒级存储数据，那是不可能的；

2）无法高效的存储大量的小文件：

小文件会占用NameNode大量的内存来存储文件目录和块信息。每个文件都要在NameNode中创建一个保存元数据的地方（索引），这个大小是固定的，150byte，即使是小文件也是，所以大量小文件很容易就把NameNode占满。
小文件过多的话，寻址时间会超过读取时间，违反HDFS的设计目标；

3）不支持并发写入、文件随机修改

HDFS里主要涉及4个组件：

1）NameNode（NN），是HDFS里的Master，管理者，主要作用：

2）DataNode，就是Slave。NameNode负责下命令，DataNode负责实际执行。

3）Client，就是客户端

文件切分。文件在上传HDFS的时候，Client将文件切分成一个一个的块。这个块的大小，是由NameNode规定的，默认情况下，NN规定一个文件块是128M，企业中通常使用128M或者256M。
与NameNode交互，获取文件位置信息；
与DataNode交互，读写数据；
可以提供一些命令来管理HDFS，比如NN格式化；
可以提供命令来访问HDFS，执行增删改查；

4）Secondary NameNode，即2NN，并非是NameNode的热备份，当NameNode挂掉的时候，它并不能马上替换NameNode并提供服务。所以实际工作中，一般不会用2NN来做容灾，而是采用NameNode的高可用模式。