Hadoop 三大组件之HDFS

不忘初欣丶

已于 2023-04-02 21:21:00 修改

阅读量1.9k

点赞数 1

分类专栏： hadoop 文章标签： hadoop hdfs 大数据

于 2023-03-30 22:14:01 首次发布

本文链接：https://blog.csdn.net/weixin_44639720/article/details/129866919

版权

hadoop 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

文章目录

1. HDFS架构
2. HDFS存储原理
- 2.1 分布式文件存储
- 2.2 NameNode元数据管理
3. HDFS读写流程
- 3.1 HDFS写入流程
- 3.2 HDFS数据读取

HDFS（Hadoop Distributed Filed System）分布式文件系统是Hadoop三大组件之一，提供分布式数据存储解决方案，可以在多台服务器上构建存储集群，存储海量的数据。

1. HDFS架构

HDFS是典型的主从模式架构，一个HDFS集群，是由一个NameNode和多个DataNode组成，如下图：

在这里插入图片描述

HDFS基础架构包含三个角色，NameNode，DataNode，SecondaryNameNode，三者关系如下图所示：
在这里插入图片描述

1.1 NameNode

HDFS系统的Master主角色，是一个独立的进程
负责管理HDFS整个文件系统的元数据信息及客户端对文件的访问
负责管理DataNode

1.2 DataNode

HDFS系统的Slave从角色，是一个独立进程
一般是一个节点一个，负责管理它所在节点上的数据存储，包含存入数据和取出数据

1.3 SecondaryNameNode

辅助NameNode，是一个独立的进程
帮助NameNode完成元数据的整理

2. HDFS存储原理

2.1 分布式文件存储

在存储时，一个文件被分成一个或多个数据块（Block块），是HDFS中最小存储单元，每个256MB（可以修改），这些块存储在一组Datanode上，便于统一管理；
每个服务器节点负责数据的一部分，同时每个Block块还可以配置多个副本（备份），存放在不同的服务器上，提高了数据的安全性；

2.2 NameNode元数据管理

edits文件：

edits文件记录了HDFS中的每一次操作，以及本次操作影响的文件及其对应的Block块，包含新增、删除、移动等，随着不断的记录，edits文件变的越来越大，会存在多个edits文件，确保不会有超大的edits文件的存在，保证检索性能。
在这里插入图片描述
但是随着edits文件的增多，如果用户查询一个文件，要到全部的edits文件中查询，效率还是非常低，因此需要合并所有的edits文件，只得到每个文件的最终操作。比如，一个文件新增，然后删除，在新增，只记录最终的一次新增记录即可，这样数据量就会大大的减少。

FSImage文件：
FSImage文件就是将全部的edits文件合并为最终结果，得到一个FSImage文件

NameNode元数据管理：
NameNode是基于edits和FSImage文件的配合，完成整个文件系统的管理。整个流程为：

每次对HDFS的操作，均会被edits文件记录
edits文件达到一定的大小后，开启新的edits记录
定期进行edits的合并操作，如果当前没有fsimage文件，则将全部的edits文件合并称为第一个fsimage文件；如果当前已经存在fsimage文件，将全部edits和已经存在的fsimage进行合并，形成新的fsimage文件
重复以上流程

整个元数据合并是辅助角色SecondaryNameNode来操作的，SecondaryNameNode会通过http从NameNode拉取数据（edits和fsimage），然后合并完成后，供给nameNode使用。

在对元数据信息合并的时候基于两种方式，一个是时间，默认1个小时；第二个是100w次的事务，只要有一个条件达到就会触发元数据合并操作。