HDFS元数据实现原理及fsimage在数据治理中的应用

最新推荐文章于 2024-08-04 15:57:27 发布

暴躁的阿呆

最新推荐文章于 2024-08-04 15:57:27 发布

阅读量194

点赞数

分类专栏： hadoop 文章标签： hdfs hadoop 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45604164/article/details/130580893

版权

开头：待思考几个问题

1）目前集群总文件数量 2.6亿，平均文件大小不到 30M，如何快速定位出小文件较多目录进行处理？
目前集群总存储量 6.3PB，日增 100TB
2）如何快速定位哪些目录每天增长过快？
3）如何定位出几个月未使用过的冷数据？然后对数据进行冷热分离
4）主备两个 NameNode 的作用分别是？其高可用是怎么做的？

HDFS 架构演进，从 Hadoop 1.x 到 Hadoop 2.x

HDFS 1.x 架构：NameNode, Secondary NameNode，DataNode
在这里插入图片描述
NameNode 管理着文件系统元数据，在本地磁盘中以 fsimage 和 edits log 存在。启动过程：将两者合并后加载进内存，DataNode 上报文件-block-DataNode 对应关系也保存在内存。当有读请求时候快速返回文件 block 位置。当有写请求时候，先写到本地 edits log 再写到内存中。
Secondary NameNode 负责定期进行 ckpt：从 NameNode 下载 fsimage 和 edits log，在本地进行合并后生成新的 fsimage（当达到某个时间阈值或对 HDFS 文件的读写请求事务达到一定数量时候）。将合并后的最新 fsimage 上传到 NameNode。

问题：NameNode

最低0.47元/天解锁文章

暴躁的阿呆

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
HDFS元数据实现原理及fsimage在数据治理中的应用

1）目前集群总文件数量 2.6亿，平均文件大小不到 30M，如何快速定位出小文件较多目录进行处理？目前集群总存储量 6.3PB，日增 100TB2）如何快速定位哪些目录每天增长过快？3）如何定位出几个月未使用过的冷数据？然后对数据进行冷热分离4）主备两个 NameNode 的作用分别是？其高可用是怎么做的？
复制链接

扫一扫

专栏目录

暴躁的阿呆 CSDN认证博客专家 CSDN认证企业博客

码龄5年

7: 原创

141万+: 周排名

137万+: 总排名

6162: 访问

: 等级

78: 积分

1: 粉丝

1: 获赞

4: 评论

8: 收藏

私信

关注

热门文章

分类专栏

hive
java 1篇
flink 1篇
hadoop 1篇
kafka 2篇

最新评论

Flink代码消费Kafka到Kafka/hdfs保证端到端一致性
CSDN-Ada助手: 恭喜您写出了这样一篇有价值的博客！您对于Flink代码消费Kafka到Kafka/hdfs保证端到端一致性的探讨，无疑会对广大读者有所启发。接下来，建议您可以进一步深入研究Flink和Kafka的相关技术，结合实际应用场景，分享更多有用的经验和心得。期待您的下一篇作品！ CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply7 看奖励名单。
Flink代码消费Kafka到Kafka/hdfs保证端到端一致性
CSDN-Ada助手: 恭喜你写了这么一篇精彩的博客，深入探讨了Flink代码消费Kafka到Kafka/hdfs保证端到端一致性的问题。你的博客让人受益匪浅，也让我对Flink有了更深刻的理解。作为下一步的创作建议，我希望你能够继续深入探讨Flink的相关问题，分享你的经验和心得，让更多人受益。谢谢你的分享！ CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply7 看奖励名单。
kafka基础
CSDN-Ada助手: 非常感谢您的分享，恭喜您写了第四篇博客，题目也很吸引人。您已经成为了一个优秀的博主，我希望您能够继续保持写作的热情，继续分享您的学习和经验。下一步，也许您可以写一些更加深入的技术内容，让读者们更好地了解kafka。再次感谢您的分享，期待您的下一篇文章。 CSDN 会根据你创作的前四篇博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply4 看奖励名单。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。