DataStorage分析

最新推荐文章于 2023-12-13 15:52:51 发布

莫言静好、

最新推荐文章于 2023-12-13 15:52:51 发布

阅读量3.5k

点赞数

分类专栏：大数据/Hadoop 文章标签： hadoop DataStorage StorageDirectroy

本文链接：https://blog.csdn.net/zhanglh046/article/details/78599234

版权

大数据/Hadoop 专栏收录该内容

55 篇文章 4 订阅

订阅专栏

我们知道DataNode一个重要的功能就是管理磁盘存储的数据块，DataNode将这个功能切分为2个部分：管理与组织磁盘目录，由DataStorage实现；管理与组织数据块及其元数据，这部分由FSDatasetImpl实现。

在这里，我们先分析DataStorage:

StorageInfo:用于描述存储的基本信息

核心字段：

publicint layoutVersion;

publicint namespaceID;

public StringclusterID;

publiclong cTime;

NodeType:DataNode/NameNode/JournalNode

protectedfinal NodeType storageType;

这些定义的信息都存储在VERSION文件里

StorageState:一个枚举类，列出了存储空间所有可能出现的状态，比如在升级，回滚，升级提交等操作的时候，节点的存储空间可能出现各种异常，列入断点，宕机等，这个时候存储空间就可能处于某种中间状态。有利于从HDFS从错误中恢复过来。

StorageDirectory:我们知道DataNode和 NameNode可以定义多个多个存储目录来存储数据，StorageDirectory定义了管理存储目录的通用方法，简而言之，就是StorageDirectory可以用于管理DataNode或者NameNode定义的存储目录。

有几个比较重要的字段：

//存储根目录

final Fileroot;

//目录是否是共享目录，因为对于HDFSFederation或者HA,他们可能会共享一些存储目录

finalboolean isShared;

//存储目录类型

finalStorageDirType dirType;

//独占锁，支持Data Node或者 Name Node独占某个存储目录

FileLocklock;

//该存储目录的唯一标识符

private StringstorageUuid = null;

比较重要的方法：

StorageDirectroy方法主要分为三类：

获取文件夹相关操作

getCurrentDir、getPreviousDir

加锁/解锁操作

tryLock/unLock

存储状态恢复

比如DataNode在执行升级，提交，回滚操纵的时候，有可能会遇到一些特殊情况，比如断点，宕机等，在DataNode重启的时候，我们又该如何恢到上一次中断的操作呢？StorageDirectory会首先调用analyzeStorage方法分析当前节点所处的状态，然后调用doRecover进行恢复。

Storage:

是一个抽象类，为NameNode，DataNode提供抽象的存储服务。管理着当前节点所有存储的目录，每一个目录都是由StorageDirectory

来管理，storageDirs代表着这个Storage所管理的所有的StorageDirectory,并通过DirIterator进行遍历。

本地存储信息是存储在VERSION文件里的，它包含了节点类型，layout版本，namespaceId,clusterId

本地存储可以存储在多个存储目录里面，每一个目录都包含相同的VERSION文件，hadoop启动的时候会会读取这些本地存储的文件信息

DataNode 对每一个存储目录持有一个锁，用于防止多个DataNode启动而修改这个共享存储目录

DataStorage:继承自Storage类，提供管理存储空间的功能。

在HDFS 联盟的模式下，一个DataNode可以保存多个命名空间的数据块，每一个命名空间在DataNode磁盘上都有一个独立的BlockPool

这个Pool会分布在DataNode所有存储目录下，他们共同保存了这个Pool在当前DataNode上的所有数据块。 HDFS定义了Block

PoolSliceStorage用于管理单个BlockPool的存储空间，DataStorage类定义了bpStorageMap字段保存DataNode上所有BlockPool的

BlockPoolSliceStorage对象的引用

DataNode在启动的时候，会调用DataStorage提供的方法初始化Data

Node的存储空间，在HDFS联盟架构中，DataNode会保存多个命名空间的数据块，对于每一个命名空间，DataNode都会构造一个BPOfferService类维护与这个命名空间NameNode的通信，当BPOfferService中的BPServiceActor类与该命名空间的NameNode握手成功以后，就会调用initBlockPool初始化该命名空间的BlockPool