![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
HDFS
文章平均质量分 97
麦兜和小可的舅舅
Hadoop Engineer
Email: vico.wu1989@gmail.com
展开
-
HDFS从Trash中删除大量小文件导致的读写受阻问题
我们一次普通的大目录删除(含有5 Million个小文件),引发了HDFS的一次持续10分钟的读写不可用的线上事故。本文对这次事故进行了详细分析,主要从HDFS的架构本身,结合事故发生时NameNode、DataNode的各种监控指标,以NameNode端的锁控制为重要关注点,分析了HDFS对文件进行物理删除操作的整个处理过程,解释事故发生的整个过程中各个指征产生的根本原因。原创 2024-07-23 10:22:48 · 531 阅读 · 0 评论 -
Spark的动态资源分配算法
本文讲解了Spark on Yarn的动态资源分配场景下,从Task信息的生成,到资源的请求,以及将生成的Task基于资源的Locality Preference调度到生成的Executor的整个过程。原创 2024-07-17 00:29:32 · 1006 阅读 · 0 评论 -
HDFS Decommission节点的长尾分析和问题解决
我们在一个HDFS集群中进行部分节点的Decommission操作。在Decommission过程中,我们发现了一些问题,比如调度缓慢,关键日志缺失等,我们通过参数调整、代码优化等方式尝试解决问题。本文详细记录了我们遇到问题和解决问题的过程,同时从代码层面讲解HDFS Decommission和块重构(Block Reconstruction)的流程。原创 2024-07-12 21:56:23 · 704 阅读 · 0 评论 -
HDFS 块重构和RedundancyMonitor详解
本文主要讲解整个块的重构过程,包括:- NameNode端待重构块的生成过程(包含了各种待重构的情况),- NameeNode端基于生成的待重构块进行重构工作的调度,- DataNode端对于重构任务的处理。由于基于副本复制的冗余策略基本上就是数据的拷贝,比较简单,因此,本文偏向于讲解基于纠删码的冗余策略的DataNode端的处理过程。原创 2024-07-10 22:50:36 · 1087 阅读 · 0 评论 -
HDFS的块汇报和块放置策略--从一次HDFS写文件故障开始
HDFS集群中NameNode为块选择副本失败导致事故,本文详细记录了该事故发生的细节,对事故的现场处理、后续处理进行了介绍,并从代码层面介绍了HDFS的副本的放置策略和基本流程。原创 2024-06-07 21:34:39 · 747 阅读 · 1 评论 -
HDFS的EC(Erasure Coding,纠删码)和块管理
介绍了HDFS的块管理策略,既有基于复制的块管理,也重点介绍了HDFS的纠删码的具体实现,主要偏向于代码解析,同时还有基于实验对一些问题的解答。原创 2024-01-22 17:36:30 · 524 阅读 · 1 评论