![](https://img-blog.csdnimg.cn/20190927151053287.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
ceph运维:常见故障处理
个人线上过程中运维的集群出现的问题解决记录,希望对大家有所帮助
z_stand
远离颠倒梦想,究竟涅槃
展开
-
ceph中使用ceph-objectstore-tool将pg从incomplete标记为complete
起始原因是集群中部分osd元数据丢失,导致集群部分pg状态一直为incomplete,从而无法恢复为activate+clean所以同事介绍之前调研得ceph-objectstore-tool工具来做这样一个pg incomplete状态的恢复普及一下incomplete状态表示:Peering过程中由于无法选出权威日志或者通过choos_acting选出的acting不足以完成数据恢复,(例...原创 2019-03-29 22:32:28 · 2877 阅读 · 1 评论 -
关于部署osd过程中:Device is in use by a device-mapper mapping问题解决
ceph环境:12.2.1使用古老的ceph-disk工具部署osd,仅仅prepare过程中就出现如上所示问题Device is in use by a device-mapper mapping md127解决方法如下:由于device-mapper为系统自己的磁盘映射器,此时检查系统是否有逻辑卷pvslvsvgs如为出现逻辑卷设备,则表明当前磁盘并未创建逻辑卷此时针对设...原创 2019-08-13 23:41:56 · 1661 阅读 · 0 评论 -
ceph osd 由于“No space left on device” 异常down,通过扩容文件系统或者显式运行osd进程解决
ceph版本:ceph 12.2.1环境配置:tier_pool 16个分区大小800G 的osd容量 3副本data_pool 32个4T盘 3副本异常问题:ps:在分布式存储中遇到任何问题都不要先去通过重设存储节点,清除磁盘数据来解决,一定要利用分布式存储系统的高可用性来先进行操作。大部分问题只需要耐心分析就可以找到高效,可靠的解决方案。出现异常,报出如下段错误: 0> ...原创 2019-06-19 13:23:20 · 1434 阅读 · 0 评论 -
编译ceph源码:cython module not found问题的解决
环境:centos7.5ceph版本:12.2.1在当前环境对ceph源码rpm包进行重新编译执行命令rpmbuild --rebuild ceph-12.2.1-0.el7.src.rpm最后出现错误如下:Could not find cython3. Please install Cython.查看此时对Cython3模块的编译规则vim /BUILD/ceph-12.2.1/...原创 2019-06-13 21:44:54 · 3196 阅读 · 1 评论 -
ubuntu18.04 Desktop版本部署13.2.6版本ceph
文章目录选择系统安装系统网络配置CEPH部署想要查看版本较高的ceph在进行录像业务存储且在磁盘占用率在70%左右时且ceph底层出现slow_request是否会对上层录像业务造成显性影响所以需要在ubuntu 18.04版本部署mimic版本ceph,先将部署步骤描述如下:选择系统这里本可以选择ubuntu18.04 server版本,ubuntu-18.04.1-live-serve...原创 2019-06-12 17:04:15 · 1757 阅读 · 2 评论 -
CEPH集群更换ip(更换ip前的防范和更换ip后的恢复)
文章目录修改`/etc/hosts`中的ip设置修改`ceph.conf`中的ip地址获取monmap将`monmap`注入到集群最近测试部在测试一些功能,在我们不知情得情况下更换了集群内外网ip,之后直接甩锅到我这里(大哭)接手到的集群是ceph各个组件之间无法成功通信,不能正常运行,该情根据网上的恢复方法已经不可行。因为ceph mon 命令无法使用,所以不能够通过该命令获取到monmap...原创 2019-05-21 22:57:45 · 1876 阅读 · 0 评论 -
关于OSD::mkfs: ObjectStore::mkfs failed with error (5) Input/output error问题的解决
环境:ceph L版本12.2.1升级到12.2.12这个问题是由于升级后进行12.2.12环境中的使用ceph-disk 进行osd部署时出现如下问题,执行命令ceph-disk -v prepare /dev/sdb;ceph-disk -v activate /dev/sdb1出现如下问题,出现这个问题之前我的磁盘用作部署过12.2.1版本的osd,但是我已经使用sgdisk -z ...原创 2019-05-20 22:30:13 · 2750 阅读 · 0 评论 -
ceph unfound object问题的解决
查看丢失对象的pg idceph health detail查找该pg下丢失的objectceph pg 8.32 list_missing尝试修复该pg:ceph pg repair 8.32ceph pg scrub 8.32修复不成功的话,可以直接告诉ceph使用已有的版本或者直接删除尝试切换到旧版本的object:ceph pg 8.32 mark_unfo...原创 2019-05-10 16:19:52 · 1665 阅读 · 0 评论 -
使用rpmbuild对ceph的源码包进行重新打包
进入ceph源码包下载ceph相关的rpm包和tar包我们下载的是ceph-12.1.1-0.el7.src.rpmceph L版本的rpm包执行命令rpmbuild --rebuild ceph-12.1.1-0.el7.src.rpm等待它执行到configuring done之后就强行终止-- Found cython-- Performing Test HAS_VTA-- Pe...原创 2019-05-13 23:13:22 · 849 阅读 · 0 评论 -
ceph-osd无法获取osd map导致osd down掉的解决办法
环境:ceph-12.2.1 3节点测试性能集群 60块osd最近ceph集群中有两个osd在重启之后遇到如下问题,osd获取不到集群osdmap产生coredump: ceph version 12.2.1.06 (3e7492b9ada8bdc9a5cd0feafd42fbca27f9c38e) luminous (stable) 1: (()+0xa2bf21) [0x7fcd9162...原创 2019-03-28 22:04:20 · 2286 阅读 · 1 评论 -
再记一次ceph object unfound的艰辛历程
感谢学无止境996同学的陪伴和vigourtyy美丽女友的支持,直到这个解决问题的深夜先说问题:ceph 12.2.1生产环境:3副本 tier + 3副本data机房在拥有业务的情况下重启集群交换机,产生如下场景:time 1: osd.1 down, osd.2 osd.3 up此时数据先落到2,3上(2为primary)time 2: osd.1 osd.2 osd.3 up...原创 2019-09-04 20:02:06 · 1654 阅读 · 0 评论