HDFS存取策略联系

急急黄豆

已于 2024-04-30 11:25:23 修改

阅读量187

点赞数 8

文章标签： hdfs hadoop 大数据

于 2024-04-28 14:33:37 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_64881847/article/details/138277259

版权

本文详细阐述了HDFS中数据存放、复制的过程，涉及分块、向NameNode请求、DN选择、流水线复制以及元数据管理。同时提到了HBase和Hadoop版本升级对单点失效问题的解决方案。

摘要由CSDN通过智能技术生成

书上关于这部分分了三个点：

1.数据存放

2.数据读取

3.数据复制

但数据存放和数据复制都是数据写操作过程中的，“存放”体现一种思想，“复制”体现过程，整个数据写操作过程如下：

1.分块：当客户端写入一个文件时，该文件首先会被切分为若干个块（block），每个块的大小由HDFS的设定值决定。

2.块向NN发起请求：每个数据块会向NameNode发起写请求。

3.NN为块给出DN列表：NameNode会根据数据块的存放策略，选择三个DataNode组成一个列表返回给客户端。如果是集群内发起的写操作，则将发起操作的节点作为第一个DN，如果是集群外发起的，则随机一个DN。第二个DN与第一个要是不同机架，第三个DN要与第一个DN同机架不同节点。

4.DN复制：客户端在接收到这个DataNode列表后，开始使用流水线复制的方法进行数据块的复制。具体步骤如下：

客户端将数据和列表传给第一个DataNode。
第一个DataNode接收到数据后，将其写入本地存储，并同时将数据和列表传递给第二个DataNode。
第二个DataNode接收到数据后，也将其写入本地存储，并继续将数据和列表传递给第三个DataNode。

这个过程是并行进行的，也就是在第一个DataNode在接收到数据后，会立即开始将数据写入本地存储，并且几乎同时，它也会将数据转发给下一个DataNode（即第二个DataNode）。第二个DataNode也会立即开始写入数据，并继续将数据传递给第三个DataNode。也就是第一个DataNode不需要等待自己完全写完数据后再传递给下一个DataNode；相反，它可以一边写入数据，一边将数据传递给下一个节点。这种流水线复制的方式可以显著提高数据写入的效率。

5.写毕：当最后一个DataNode完成写入后，它会沿着列表逆序发送数据写完毕信号“ACK确认包”，通知客户端和整个流水线中的数据节点，表示该数据块已成功复制到所有目标节点。

因此，可以说HDFS数据块的复制和存放是一个协同进行的过程，它们相互依赖、相互促进，共同保证了数据在HDFS中的可靠存储和高效访问。

其余补充：

1.NameNode的内存中存储了当前的元数据，而FsImage和EditLog则存储在磁盘上，用于持久化和恢复元数据。

2.Region元数据：记录Region与Region服务器的映射关系，存内存

NameNode元数据：除了目录-文件-块-DataNode的映射关系（分几块，存在哪里），还包括了文件的描述属性。（是什么）

3.hbase表的meta表和root表也是存在Region上的

4.hbase空间大小受root表大小限制（region大小）

hdf存储空间大小受namenode内存大小限制

5.hadoop1.0对于hdfs的namenode单点失效问题采取第二名称节点方式解决

hadoop2.0对于hdfs的namenode单点失效问题采取NN Federation方法解决

hbase对于master单点失效问题采取zookeeper协调选取主管方式解决

6.region以行划分

store以列族划分

7.region服务器重启：若hlog里有缓存，也就是上次关机memstore里剩余没刷新的内容，执行hlog恢复memstore，刷新，删除hlog文件

region失效：把hlog中的操作全部重新做一次恢复memstore，与重启类似

关注

8
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
HDFS存取策略联系

这个过程是并行进行的，也就是在第一个DataNode在接收到数据后，会立即开始将数据写入本地存储，并且几乎同时，它也会将数据转发给下一个DataNode（即第二个DataNode）。5.写毕：当最后一个DataNode完成写入后，它会沿着列表逆序发送数据写完毕信号，通知客户端和整个流水线中的数据节点，表示该数据块已成功复制到所有目标节点。因此，可以说HDFS数据块的复制和存放是一个协同进行的过程，它们相互依赖、相互促进，共同保证了数据在HDFS中的可靠存储和高效访问。
复制链接

扫一扫

急急黄豆 CSDN认证博客专家 CSDN认证企业博客

码龄3年

46: 原创

117万+: 周排名

4万+: 总排名

2万+: 访问

: 等级

793: 积分

243: 粉丝

300: 获赞

28: 评论

294: 收藏

私信

关注

热门文章

分类专栏

最新评论

Latex控制三线表宽度且内容居中
2401_86428065: 请教一下，第二列的居中为什么不直接也用c，而是>{\centering\arraybackslash}
如何在overleaf使用中文指定字体
m0_59916887: 这样是fandol宋体，和word不一样，请问怎么解决呀
【西瓜书】1.绪论
秋说: 优质好文！有兴趣合作嘛？可以私信我或添加我文章底部vx
Impala系统架构理解
普通网友: 写的很好，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
HDFS存取策略联系
普通网友: 大佬高质量文章，图文并茂，逻辑清晰，受益匪浅，期待大佬新作。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

最新文章

2024

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。