【ceph】ceph如何排查哪个osd曾经down过，超级实用

向往风的男子

已于 2024-01-24 11:53:47 修改

阅读量1.2k

点赞数 20

分类专栏： ceph 文章标签： ceph

于 2024-01-24 11:43:32 首次发布

本文链接：https://blog.csdn.net/zerotoall/article/details/135817871

版权

ceph 专栏收录该内容

39 篇文章 7 订阅

订阅专栏

本站以分享各种运维经验和运维所需要的技能为主

《python零基础入门》：python零基础入门学习

《python运维脚本》： python运维脚本实践

《shell》：shell学习

《terraform》持续更新中：terraform_Aws学习零基础入门到最佳实战

《k8》暂未更新

《docker学习》暂未更新

《ceph学习》ceph日常问题解决分享

《日志收集》ELK+各种中间件

《运维日常》运维日常

《linux》运维面试100问

【ceph】ceph如何排查哪个osd曾经down过，超级实用

背景：

在巡检ceph集群的时候，发现osd的时间发生了变化

osd: 186 osds: 186 up (since 30m), 185 in (since 15h)

需要查看是哪个osd发生过被集群mark out 过

操作：

一、查看osd的日志：

for i in `cat osd-num`;do cat /var/log/ceph/ceph-osd.$i.log | egrep "Monitor daemon marked" ; done

二、直接查看mon的日志：

cat ceph-mon.xxx.log | grep "we have enough reporters to mark"

这里附加一下：集群是如何将一个osd进行mark out的：

判断原理：

osd之间都会进行心跳检查，都会向mon打小报告如果检查到某个osd不行，

这个小报告的数量达到某个阈值之后集群就会进行mark out操作

相关日志：

2024-01-24 10:11:26.601 7f5aee043700  0 log_channel(cluster) log [DBG] : osd.114 reported failed by osd.64
2024-01-24 10:12:30.897 7f5aee043700  1 mon.xxx@0(leader).osd e8511  we have enough reporters to mark osd.78 down

与下面这两个参数有关：

参数：

mon_osd_down_out_interval

mon_osd_min_down_reporters

查看命令：

# ceph daemon osd.0 config show | grep mon_osd_down_out_interval
"mon_osd_down_out_interval": "600",
# ceph daemon osd.0 config show | grep mon_osd_min_down_reporters
"mon_osd_min_down_reporters": "2",

参考：

Configuring Monitor/OSD Interaction — Ceph Documentation

向往风的男子

关注

20
点赞
踩
30

收藏

觉得还不错? 一键收藏
0
评论
【ceph】ceph如何排查哪个osd曾经down过，超级实用

【ceph】ceph如何排查哪个osd曾经down过，超级实用这里附加一下：集群是如何将一个osd进行mark out的：判断原理：osd之间都会进行心跳检查，都会向mon打小报告如果检查到某个osd不行，这个小报告的数量达到某个阈值之后集群就会进行mark out操作相关日志：参数：mon_osd_down_out_intervalmon_osd_min_down_reporters查看命令：# ceph daemon osd.0 config show | gre
复制链接

扫一扫

专栏目录