hadoop edits 文件损坏修复办法

最新推荐文章于 2024-05-21 16:24:47 发布

wisgood

最新推荐文章于 2024-05-21 16:24:47 发布

阅读量2k

点赞数

分类专栏： HDFS

HDFS 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

前段时间公司hadoop集群宕机，发现是namenode 磁盘满了。。清理出部分空间后，重启集群时，重启失败。

又发现集群Secondary namenode 服务也恰恰坏掉，导致所有的操作log持续写入edits.new 文件，等集群宕机的时候文件大小已经达到了丧心病狂的70G+..重启集群报错加载edits文件失败。分析加载文件报错原因是磁盘不足导致最后写入的log只写入一半就宕机了。由于log不完整，hadoop再次启动加载edits文件时读取文件报错。由于edits.new 文件过大，存储了好多操作log，所以必须要对其进行修复。

尝试删除文件的最后几行，结果还是报错。于是查看源码对edits 文件结构进行分析发现是二进制格式，首行为版本号，然后是hadoop运行过程中的log记录内容，由操作码 +长度(非必须)+其他项组成。

edits文件格式分析图

解决办法

报错位置在源码中的方法为org.apache.hadoop.hdfs.server.namenode.FSEditLog.loadFSEdits(EditLogInputStream edits)方法中读取文件最后位置时因为缺少部分数据报错，所以把这部分代码单独拿出来，去掉业务操作部分，只留读取过程，记录异常之前的文件长度len，然后将0到len 这部分的内容复制出来成新的edits文件。启动hadoop集群，成功！

NameNode启动加载元数据情景分析

NameNode函数里调用FSNamesystemm读取dfs.namenode.name.dir和dfs.namenode.edits.dir构建FSDirectory。
FSImage类recoverTransitionRead和saveNameSpace分别实现了元数据的检查、加载、内存合并和元数据的持久化存储。
saveNameSpace将元数据写入到磁盘，具体操作步骤：首先将current目录重命名为lastcheckpoint.tmp;然后在创建新的current目录，并保存文件；最后将lastcheckpoint.tmp重命名为privios.checkpoint.
checkPoint的过程：Secondary NameNode会通知nameNode产生一个edit log文件edits.new，之后所有的日志操作写入到edits.new文件中。接下来Secondary NameNode会从namenode下载fsimage和edits文件，进行合并产生新的fsimage.ckpt;然后Secondary会将fsimage.ckpt文件上传到namenode。最后namenode会重命名fsimage.ckpt为fsimage，edtis.new为edits；

PS：

最新的CDH版本的hadoop 集群启动可以对edits文件进行recover操作，跳过报错log

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

wisgood

CSDN认证博客专家 CSDN认证企业博客

码龄14年

166: 原创

2万+: 周排名

164万+: 总排名

281万+: 访问

: 等级

2万+: 积分

1207: 粉丝

525: 获赞

188: 评论

1188: 收藏

私信

关注

热门文章

分类专栏

Flink 1篇
Hadoop从入门到放弃 7篇
开源社区贡献 2篇
MapReduce 69篇
Hive 93篇
spark 65篇
Java 102篇
Yarn 5篇
Linux 84篇
数据仓库 8篇
大数据运维 6篇
Hbase 4篇
算法 22篇
Pig 3篇
mysql 10篇
tez 3篇
docker 1篇
HDFS 7篇
编程工具 8篇
scala 9篇
kafka 15篇

最新评论

多年大数据开发经验总结
菜码代码: 现在呢，都没什么公司用了
flink回撤流分析
CSDN-Ada助手: 非常感谢您分享关于flink回撤流分析的博客，这篇文章对于正在学习和使用flink的开发者来说非常有帮助。我觉得下一篇博客可以继续探讨flink的流处理能力，在实际场景中如何应用flink实现数据处理和分析，建议您可以写一篇关于“flink实时数据处理的最佳实践”或“flink在大数据分析中的应用”等主题，相信会有更多读者受益。期待您的下一篇分享！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
hive中join导致的数据倾斜问题排查
wennwennn: 可能其他大key分到其他reduce,大家都慢,就不倾斜了
hive 使用lzo遇到的一个奇怪的问题
code学习社: 请问一下问题解决了，可以告知一下解决方法吗，感谢
如何确定Kafka的分区数、key和consumer线程数
打破砂锅问到底007: 谢谢分享。默认情况下， kafka 是根据 key 来分配消息到哪个 topic的分区的，这样就可以实现某一台消费者机器都是同一个 key的消息，也就是这个 key的消息只会到同一个机器上，这对想保证一定顺序性需求的同学是有帮助的

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。