HDFS的结构

最新推荐文章于 2024-05-01 23:39:25 发布

weixin_46373361

最新推荐文章于 2024-05-01 23:39:25 发布

阅读量373

点赞数

分类专栏： hdfs hadoop 文章标签：大数据 hadoop

本文链接：https://blog.csdn.net/weixin_46373361/article/details/115489624

版权

hadoop 同时被 2 个专栏收录

16 篇文章 0 订阅

订阅专栏

hdfs

7 篇文章 0 订阅

订阅专栏

HDFS的结构

namenode结构
datanode结构
HDFS写文件流程（重点）
HDFS读文件流程（重点）
- - - 注意
    - 最近邻（了解）

namenode结构

namenode

管理文件元数据
    文件名称、大小、所属关系、权限、副本大小、副本个数
    文件块的列表信息：(块的ID，偏移量，块的大小，块所在的主机名称列表)
持久化文件
    fsimage(内存快照)，edits log
    fsimage很大，GB级别；edits log只追加的文件
    用户操作首先记录到edits log中，然后更新内存
fsimage不保存数据块位置信息，因为有时候datanode会出错，记录数据块位置信息没有用
    在系统启动的时候，datanode向namenode发送文件块列表信息（bid）
    datanode通过心跳向namenode汇报列表信息。
namenode元数据正常工作时，元数据放内存，高并发

secondarynamenode

->周期性的合并fsimage和edits log
	1：默认情况下，一小时进行一次合并
	2：如果不够一小时，则在edits log记录了1000000个事务的时候，进行合并
	3：默认情况下每分钟检查一下edits log记录的事务数量
->防止edits log变得过大
	1：如果edits log文件过大，正常运行的时候没有问题，在重启的时候会花费很长时间执行
->合并的流程
	1：通知namenode要进行合并了
	2：namenode将现在的edits log文件重命名，同时生成一个空的edits log文件
	3：SNN从NN通过HTTP GET的方式下载fsimage和最新的edits log（不是正在使用的edits log文件）
	4：SNN首先将fsimage加载到自己的内存，然后对内存数据执行edits log中的记录
	5：执行结束后，将内存镜像写到磁盘，形成新的fsimage，此时fsimage就是原来的fsimage + edits log（旧）
	6：SNN将新生成的fsimage推送给NN（HTTP PUT）
	7：NN使用
->如何指定SNN所在的位置：dfs.namenode.secondary.http-address指定：主机名：50090

namenode存储结构

在这里插入图片描述
如果SecondaryNameNode直接接手NameNode的工作，需要在启动NameNode进程的时候添加-importCheckpoint选项。该选项会让NameNode从由dfs.namenode.checkpoint.dir属性定义的路径中加载最新的checkpoint数据，但是为了防止元数据的覆盖，要求dfs.namenode.name.dir定义的目录中没有内容

datanode结构

datanode

存储数据->存储模型：
	1：文件按字节切割成块
	2：每个文件切割的block块大小一致，不同文件可以不一样。
	3：block默认块大小为128MB，默认副本数为3个
	4：副本的作用：提供容错、承担计算、副本个数不超过节点数
	5：文件的block块允许修改副本数，大小不允许
	6：同一个文件同一时刻只能有一个写入者
	7：文件可以append追加
->副本存放策略：
	1：如果文件上传的节点就是一个datanode，则第一个副本放在本地，如果在集群外上传文件则随机挑选一个CPU不太忙，存储不太满的节
	点存放
	2：第二个副本放在和第一个副本不同机架上的一个节点
	3：第三个副本放在和第二个副本相同机架的不同节点
	4：其他副本随机存放
->和NN保持心跳连接 每3s发送一次，如果10min，NN接受不到，则认为该节点宕机，将该节点上所有的block在其他节点复制出来
->如何指定datanode在哪个节点运行：slaves文件，每一行记录，每个记录表是datanode所在节点IP地址或主机名

datanode存储结构

在这里插入图片描述

1、HDFS块数据存储于blk_前缀的文件中，包含了被存储文件原始字节数据的一部分。

2、每个block文件都有一个.meta后缀的元数据文件关联。该文件包含了一个版本和类型信息的头部，后接该block中每个部分的校验和。

3、每个block属于一个block池，每个block池有自己的存储目录，该目录名称就是该池子的ID（跟NameNode的VERSION文件中记录的block池ID一样）。

当一个目录中的block达到64个（通过dfs.datanode.numblocks配置）的时候，DataNode会创建一个新的子目录来存放新的block和它们的元数据。这样即使当系统中有大量的block的时候，目录树也不会太深。同时也保证了在每个目录中文件的数量是可管理的，避免了多数操作系统都会碰到的单个目录中的文件个数限制（几十几百上千个）。

如果dfs.datanode.data.dir指定了位于在不同的硬盘驱动器上的多个不同的目录，则会通过轮询的方式向目录中写block数据。需要注意的是block的副本不会在同一个DataNode上复制，而是在不同的DataNode节点之间复制。

存储数据模型

1、文件线性切割成块（Block）（按字节切割）
2、Block分散存储在集群节点中
3、单一文件Block大小一致，文件与文件可以不一致
hdfs dfs -D dfs.blocksize=1048576 -D dfs.replication=3 -put hello.txt /
4、Block可以设置副本数，副本分散在不同节点中
a) 副本数不要超过节点数量
b) 承担计算
c) 容错
5、文件上传可以设置Block大小和副本数
6、已上传的文件Block副本数可以调整，大小不变
7、只支持一次写入多次读取，同一时刻只有一个写入者
对同一个文件，一个时刻只有一个写入者
8、可以append追加数据

HDFS写文件流程（重点）

在这里插入图片描述

调用客户端的对象DistributedFileSystem的create方法；
DistributedFileSystem会发起对namenode的一个RPC连接，请求创建一个文件，不包含关于block块的请求。namenode会执行各种各样的检查，确保要创建的文件不存在，并且客户端有创建文件的权限。如果检查通过，namenode会创建一个文件（在edits中，同时更新内存状态），否则创建失败，客户端抛异常IOException。
DistributedFileSystem返回一个FSDataOutputStream对象给客户端用于写数据。FSDataOutputStream封装了一个DFSOutputStream对象负责客户端跟datanode以及namenode的通信。
FSDataOutputStream对象将数据切分为小的数据包（64kb，core-default.xml：file.client-write-packet-size默认值65536），并写入到一个内部队列（“数据队列”）。DataStreamer会读取其中内容，并请求namenode返回一个datanode列表来存储当前block副本。列表中的datanode会形成管线，DataStreamer将数据包发送给管线中的第一个datanode，第一个datanode将接收到的数据发送给第二个datanode，第二个发送给第三个。。。
DFSOoutputStream维护着一个数据包的队列，这的数据包是需要写入到datanode中的，该队列称为确认队列。当一个数据包在管线中所有datanode中写入完成，就从ack队列中移除该数据包。如果在数据写入期间datanode发生故障，则执行以下操作
a) 关闭管线，把确认队列中的所有包都添加回数据队列的最前端，以保证故障节点下游的datanode不会漏掉任何一个数据包。
b) 为存储在另一正常datanode的当前数据块指定一个新的标志，并将该标志传送给namenode，以便故障datanode在恢复后可以删除存储的部分数据块。
c) 从管线中删除故障数据节点并且把余下的数据块写入管线中另外两个正常的datanode。namenode在检测到副本数量不足时，会在另一个节点上创建新的副本。
d) 后续的数据块继续正常接受处理。
e) 在一个块被写入期间可能会有多个datanode同时发生故障，但非常少见。只要设置了dfs.replication.min的副本数（默认为1），写操作就会成功，并且这个块可以在集群中异步复制，直到达到其目标副本数（dfs.replication默认值为3）。
如果有多个block，则会反复从步骤4开始执行。
当客户端完成了数据的传输，调用数据流的close方法。该方法将数据队列中的剩余数据包写到datanode的管线并等待管线的确认
客户端收到管线中所有正常datanode的确认消息后，通知namenode文件写完了。
namenode已经知道文件由哪些块组成，所以它在返回成功前只需要等待数据块进行最小量的复制。

HDFS读文件流程（重点）

在这里插入图片描述

客户端通过FileSystem对象的open方法打开希望读取的文件，DistributedFileSystem对象通过RPC调用namenode，以确保文件起始位置。对于每个block，namenode返回存有该副本的datanode地址。这些datanode根据它们与客户端的距离来排序。如果客户端本身就是一个datanode，并保存有相应block一个副本，会从本地读取这个block数据。
DistributedFileSystem返回一个FSDataInputStream对象给客户端读取数据。该类封装了DFSInputStream对象，该对象管理着datanode和namenode的I/O，用于给客户端使用。客户端对这个输入调用read方法，存储着文件起始几个block的datanode地址的DFSInputStream连接距离最近的datanode。通过对数据流反复调用read方法，可以将数据从datnaode传输到客户端。到达block的末端时，DFSInputSream关闭与该datanode的连接，然后寻找下一个block的最佳datanode。客户端只需要读取连续的流，并且对于客户端都是透明的。
客户端从流中读取数据时，block是按照打开DFSInputStream与datanode新建连接的顺序读取的。它也会根据需要询问namenode来检索下一批数据块的datanode的位置。一旦客户端完成读取，就close掉FSDataInputStream的输入流。
在读取数据的时候如果DFSInputStream在与datanode通信时遇到错误，会尝试从这个块的一个最近邻datanode读取数据。它也记住那个故障datanode，保证以后不会反复读取该节点上后续的block。DFSInputStream也会通过校验和确认从datanode发来的数据是否完整。如果发现有损坏的块，就在DFSInputStream试图从其他datanode读取其副本之前通知namenode。

注意

namenode告知客户端每个block中最佳的datanode，并让客户端直接连到datanode检索数据。由于数据流分散在集群中的所有datanode，这样可以使HDFS可扩展到大量的并发客户端。同时，namenode只需要响应block位置的请求，无需响应数据请求，否则namenode会成为瓶颈。