背景
ceph集群出现了单个osd用满的情况
osd所在的磁盘满了,超过了mon_osd_full_ratio的阈值,导致集群HEALTH_ERR
提高mon_osd_full_ratio的阈值, 重启osd(找到osd所在的服务器修改配置之后重启,尝试过tell命令并不能恢复集群)
目前解决的办法是当这个osd快满的时候重启该osd
本集群是四节点,ssd作为osd的元数据存储,就是这些ssd会出现单个用满的情况
解决过程
#找到快满的osd以及所在服务器
[root@gz-ceph-52-233 ~]# ceph osd df | awk '{print$1" "$8}' | sort -rn -k 2 | head -1
173 77.41
[root@gz-ceph-52-233 ~]# ceph osd find 173
{
"osd": 173,
"ip": "172.26.2.235:6817/935797",
"crush_location": {
"host": "ssd-gz-ceph-52-235",
"root": "ssd-index"
}
}
You have mail in /var/spool/mail/root
[root@gz-ceph-52-233 ~]# ceph osd find 173 | grep ip
"ip": "172.26.2.235:6817/935797",
#去上面找到的服务器重启osd
systemctl restart ceph-osd@173