- 博客(2)
- 收藏
- 关注
原创 YARN ResourceManager 进程异常退出问题追查
今天计算集群主节点异常退出的问题已经查清,是由异常job和yarn 调度bug造成。异常job的map数量高达十几万,将所有计算节点的本地磁盘几乎耗尽,造成3个计算节点dead,从而引起yarn schduler模块处理expire事件的bug,最终进程退出。 下面描述一下整个事件的经过:11-10 18:35:14 异常hive job提交11-10 23:15:32 异
2015-12-19 23:12:20 4999
原创 Hadoop HDFS DN 内核Bug
记录一个HDFS Bug,在Apache社区也有相关report,HDFS-7489,该Bug影响的版本是hadoop 2.5.0和hadoop 2.6.0,在hadoop 2.6.1进行了修复。触发这个Bug的原因的磁盘的高IO与DataNode的相关锁机制,下面描述一下整个过程(由于过程比较复杂,下面简要说明)。首先有两个DataNode 服务模块跟Bug相关,一个是BPO
2015-12-19 23:08:55 550
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人