ceph
文章平均质量分 64
向往风的男子
专心在运维工作耕耘,结出属于自己的花果。
会分享一些个人对工作的见解、 生产遇到的一些故障以及难题和自己感兴趣的知识点
展开
-
【ceph】ceph集群更换osd时,找不到坏盘位置,怎么查找坏盘对应的序列号---业内称“点灯”
ceph集群更换osd时,找不到坏盘位置,怎么查找坏盘对应的序列号---业内称“点灯”有什么办法可以确定其位置?方法:方法一:Storcli 工具下载:Index of /pub/misc方法二:最简单是通过ledctl 点灯:ledctl locate=/dev/xxx如果最简单的ledctl点灯失败就使用方法一:下面找sn slot 具体命令:原创 2024-08-16 17:55:11 · 188 阅读 · 0 评论 -
【ceph】手动编译14.2.22 ceph版本---超详细版本,生产可用
【ceph】手动编译14.2.22 ceph版本---超详细版本,生产可用编译过程:./install-deps.sh # --- 看下面补充依赖./do_cmake.sh -DWITH_MANPAGE=OFF -DWITH_BABELTRACE=OFF -DWITH_MGR_DASHBOARD_FRONTEND=OFF -DCMAKE_BUILD_TYPE=release -DWITH_CCACHE=ONcd buildnohup make -j20 > output.log # 如果想单独编译原创 2024-08-06 11:07:19 · 1928 阅读 · 0 评论 -
【ceph】ceph集群-添加/删除mon
在 Ceph 集群中删除一个有问题的 MON 并添加新的 MON 节点是一个需要谨慎操作的过程,因为 MON 节点负责维护集群的状态和配置信息。下面是删除有问题的 MON 并添加新 MON 到集群的一般步骤:1. 删除有问题的 MON确认 MON 的状态:使用ceph mon stat或ceph status命令查看所有 MON 的状态和它们的健康情况。停止有问题的 MON 服务:根据你的操作系统和部署方式,停止 MON 服务。例如,如果使用 systemd 管理服务,可以使用:原创 2024-07-12 11:15:42 · 1083 阅读 · 0 评论 -
【ceph】ceph-mon重新选举的情况
Ceph 是一个高度可靠的分布式存储系统,其监控组件(Monitor,简称 MON)负责维护集群的状态和元数据信息。MON 之间的领导者选举是 Ceph 正常运行的关键组成部分。MON 领导者选举通常在以下情况下触发:### 1. **MON 进程崩溃或停止**如果某个 MON 实例由于进程崩溃、硬件故障、网络问题或其他原因停止响应,集群中的其他 MON 将无法与其通信,从而触发重新选举以确保集群的稳定和元数据的一致性。### 2. **网络分区**在网络分区(网络隔离)的情况下,MON 集群可原创 2024-07-12 10:55:04 · 704 阅读 · 0 评论 -
【ceph】坏盘更换,osd的具体操作
【ceph】坏盘更换,osd的具体操作1、调整osd的pg迁移速度 sudo ceph tell osd.* injectargs '--osd_recovery_max_single_start 1 --osd_recovery_sleep_hdd 0.1 --osd_recovery_max_active 1 --osd_max_backfills 1'2、调整reweight ceph osd reweight osd.x 03、先停掉服务 systemctl stop ceph-osd@原创 2024-06-17 11:56:46 · 963 阅读 · 0 评论 -
【ceph】配置 ceph dashboard 详细配置过程
【ceph】配置 ceph dashboard 详细配置过程原创 2024-03-18 17:37:46 · 1525 阅读 · 0 评论 -
【ceph】ceph中osd报错,have spurious read error
【ceph】ceph中osd报错,have spurious read error其实ceph的很多报错的排障过程都是这样:硬件(cpu、内存、磁盘) --- 网络 --- 具体到某个组件的日志基本上都是盘坏了(可以使用smartctl去查看盘状态),直接换盘就好。原创 2024-03-14 16:41:20 · 626 阅读 · 0 评论 -
【ceph】ceph关于清洗数据scrub的参数分析
【ceph】ceph关于清洗数据scrub的参数分析"osd_scrub_max_interval": "2592000.000000":表示数据清洗的最大时间间隔为 2592000 秒,即 30 天。osd_scrub_max_intervalosd_deep_scrub_intervalosd_scrub_load_thresholdosd_scrub_chunk_max # 针对小文件多,可以调整大osd_max_scrubs # 建议不要超过10原创 2024-01-24 14:42:43 · 774 阅读 · 0 评论 -
【ceph】ceph如何排查哪个osd曾经down过,超级实用
【ceph】ceph如何排查哪个osd曾经down过,超级实用这里附加一下:集群是如何将一个osd进行mark out的:判断原理:osd之间都会进行心跳检查,都会向mon打小报告如果检查到某个osd不行,这个小报告的数量达到某个阈值之后集群就会进行mark out操作相关日志:参数:mon_osd_down_out_intervalmon_osd_min_down_reporters查看命令:# ceph daemon osd.0 config show | gre原创 2024-01-24 11:43:32 · 1237 阅读 · 0 评论 -
【ceph】在虚拟环境中需要给osd所在的虚拟盘扩容操作
【ceph】在虚拟环境中需要给osd所在的虚拟盘扩容操作一、正常lv扩容操作lvextend -L +2G mylv二、lv正常扩容之后,只是系统同步了盘大小,而osd并没有同步,还需要进行osd同步sudo ceph-bluestore-tool --path --dev-expand原创 2024-01-12 15:33:38 · 1401 阅读 · 0 评论 -
【ceph】如何将osd的内容挂载出来---ceph-objectstore-tool 实现
【ceph】如何将osd的内容挂载出来---ceph-objectstore-tool 实现需要看到osd里面还有哪些数据内容操作流程1.先stop 对应osd2.ceph-objectstore-tool --op fuse --data-path /var/lib/ceph/osd/ceph-xx/ --mountpoint /xxx/原创 2024-01-12 15:28:55 · 733 阅读 · 0 评论 -
【ceph】使用 upmap 在 OSD 上手动重新平衡数据,比前面用reweight、balance香多了
【ceph】使用 upmap 在 OSD 上手动重新平衡数据,比前面用reweight、balance香多了要求版本:L版以上centos系统:ceph osd getmap -o osd_maposdmaptool --test-map-pgs --pool 5osd_map#这里6是我的数据盘pool的id号,自行寻找osdmaptool osd_map--upmap output_upmap--upmap-pool mydata --upmap-max 100 --upmap原创 2024-01-04 16:07:00 · 1676 阅读 · 0 评论 -
【ceph】pg状态不正常,Degraded data redundancy: 460/77222938 objects degraded (0.001%), 11 pgs degraded
【ceph】pg状态不正常,Degraded data redundancy: 460/77222938 objects degraded (0.001%), 11 pgs degraded根据信息,Ceph 集群的健康状态显示为HEALTH_WARN,并且存在数据冗余度降低的警告。具体的警告信息是:460/76950244 个对象降级(0.001%),11 个降级的 PG(Placement Group),20 个大小不足的 PG。警告信息中提到了一些pg(Placement Group)被标原创 2024-01-04 11:56:55 · 1454 阅读 · 0 评论 -
【ceph】pg down的处理流程
【ceph】pg down的处理流程原创 2023-12-21 17:26:57 · 1352 阅读 · 0 评论 -
【ceph】ceph的硬件使用磁盘柜有多路径,节点显示有多个盘符的时候,应该怎么操作去创建osd呢?
【ceph】ceph的硬件使用磁盘柜有多路径,节点显示有多个盘符的时候,应该怎么操作去创建osd呢?原创 2023-12-07 16:43:28 · 260 阅读 · 0 评论 -
【ceph】ceph生产常见操作之一---ceph扩容以及注意事项
【ceph】ceph生产常见操作之一---ceph扩容以及注意事项扩容过程主要分为4步(文档有具体描述):(1)业务规模的评估(2)扩容前的准备工作(包括环境的检查,pg数的计算,pg分布的统计)(3)扩容过程中的故障处理(mon、osd进程故障,pg状态异常故障)(4)扩容完的收尾动作(统计pg的分布图,调节迁移的速度等)二、迁移过程中的状态详解Remapped、backfill等三、迁移速度调整原创 2023-12-07 16:35:36 · 1008 阅读 · 0 评论 -
【ceph】传统分区和vg lvm 创建osd
【ceph】传统分区和vg lvm 创建osd原创 2023-12-05 16:45:30 · 386 阅读 · 0 评论 -
【ceph】ceph集群中调参工程师必备命令:ceph config help <参数>
【ceph】ceph集群中调参工程师必备命令:ceph config help原创 2023-12-05 16:33:01 · 189 阅读 · 0 评论 -
【ceph】如何打印一个osd的op流程,排查osd在干什么
【ceph】如何打印一个osd的op流程,排查某个osd具体在干什么原创 2023-11-24 16:15:51 · 354 阅读 · 0 评论 -
【ceph】ceph集群 slow req 问题剖析:30 slow requests are blocked > 32 sec. Implicated osds 186,满满都是干货
【ceph】ceph集群 slow req 问题剖析:30 slow requests are blocked > 32 sec. Implicated osds 186,满满都是干货1.硬件问题:dmest -T / smartctl -a 以及查看osd日志排查2.网络问题:自己排查自己机器环境中的网络是否不稳定一般使用iperf 或者 长ping 以及 http 响应时间 使用time3.时间同步ntp也要检查4.上面问题都排除外,大概率是shard分配不合理导致osd压力原创 2023-11-24 15:07:03 · 636 阅读 · 0 评论 -
【ceph】ceph集群存储池如何设计规则rule 让 index 的索引数据都落盘到ssd盘上
【ceph】ceph集群存储池如何设计规则rule 让 index 的索引数据都落盘到ssd盘上先在这个ssd root里新建规则/usr/bin/ceph osd crush rule create-replicated replicated-1 ssd-index host ssd然后把那些pool迁移过去/usr/bin/ceph osd pool set POOLNAME crush_rule replicated-1原创 2023-11-23 15:29:11 · 259 阅读 · 0 评论 -
【ceph】ceph集群的故障域是怎么快速修改导入导出
【ceph】ceph集群的故障域是怎么快速修改导入导出ceph osd getcrushmap -o crushtool -d -o crushtool -c -o ceph osd setcrushmap -i原创 2023-11-20 18:17:25 · 550 阅读 · 0 评论 -
【ceph】AI时代-数据为王-ceph存储将成为未来比较看好的赛道之一,为什么不all in一把学习一个不那么卷的赛道呢?
AI时代-数据为王-ceph存储将成为未来比较看好的赛道之一,为什么不all in一把学习一个不那么卷的赛道呢?总而言之,目前AI时代在高速发展中,可能不到25年,就需要一大批存储人才,管理数据的高可用以及安全性问题,而咱们从此时开始准备,随时准备好站在“AI的风口”被选中吹起,也是一条相对于前后端开发、算法设计开发没那么卷未来又比较看好的赛道呢,让我们一起学习。原创 2023-11-17 17:01:44 · 188 阅读 · 0 评论 -
【ceph】ceph集群设计优化存储-超级干货-满满都是生产活
【ceph】ceph集群设计优化存储-超级干货-满满都是生产活目前生产比较常用的基本都是index和数据分开存储,-ssd专门存储index,加速搜索-数据就使用hdd存储即可-osd的性能优化,也可以wal 和 db 存到ssd盘,data存到hdd即可。另外一方面就是安全性考虑使用故障域把host分离实现冗余,不同机柜,不同节点,高可用的实现。原创 2023-11-17 11:08:31 · 167 阅读 · 0 评论 -
【ceph】ceph集群在执行ceph-volume命令卡住了,惊住了!
【ceph】ceph集群在执行ceph-volume命令卡住了,惊住了!原创 2023-11-17 10:52:15 · 368 阅读 · 0 评论 -
【ceph】ceph集群删除pool报错: “EPERM: pool deletion is disabled“
【ceph】ceph集群删除pool报错: "EPERM: pool deletion is disabled"原创 2023-11-14 16:06:14 · 700 阅读 · 0 评论 -
【ceph】ceph集群中使用多路径(Multipath)方法
【ceph】ceph集群中使用多路径方法原创 2023-11-14 14:38:45 · 607 阅读 · 0 评论 -
【ceph】ceph集群-osd所在的盘lv创建的时候报错:device-mapper: create ioctl on...failed: Device or resource busy
【ceph】ceph集群-osd所在的盘lv创建的时候报错:device-mapper: create ioctl on...failed: Device or resource busydmsetup ls | grep 185dmsetup remove ceph--osd--185--vg--osd--185--data原创 2023-10-25 14:50:45 · 287 阅读 · 0 评论 -
【ceph】ceph集群的节点机器重启,导致磁盘的lvm消失,如何恢复呢~~满满的都是干货
【ceph】ceph集群的节点机器重启,导致磁盘的lvm消失,如何恢复呢~~满满的都是干货原创 2023-10-24 11:42:17 · 462 阅读 · 0 评论 -
【ceph】Large omap object found 干货解决
【ceph】Large omap object found 干货解决原创 2023-10-23 14:42:28 · 454 阅读 · 0 评论 -
【ceph】pg object unfound 如何处理
【ceph】pg object unfound 如何处理原创 2023-07-06 11:27:53 · 555 阅读 · 0 评论 -
【ceph】ceph-osd重建流程(手工起并且指定id为完成并行批量创建osd打下基础)
【ceph】ceph-osd重建流程(手工起并且指定id为完成并行批量创建osd打下基础)原创 2023-07-05 12:20:12 · 703 阅读 · 0 评论 -
【ceph】设置恢复数据速度之pg recover限流
【ceph】设置恢复数据速度之pg recover限流原创 2023-06-28 18:48:14 · 1025 阅读 · 0 评论 -
【ceph】提升CEPH PG scrub的速度
【ceph】提升CEPH PG scrub的速度原创 2023-06-28 16:28:09 · 352 阅读 · 0 评论 -
【ceph】存储池pool的pg数量的计算和规划
【ceph】存储池pool的pg数量的计算和规划原创 2023-06-27 15:12:15 · 2016 阅读 · 0 评论 -
【ceph】存储池的关联关系-新手必看
【ceph】存储池的关联关系-新手必看原创 2023-06-26 16:23:33 · 136 阅读 · 0 评论 -
【ceph监控】Prometheus+Grafana+exporter
【ceph监控】Prometheus+Grafana+exporter原创 2023-06-20 11:27:42 · 797 阅读 · 0 评论 -
【ceph】添加Mon或者删除Mon
【ceph】添加Mon或者删除Mon原创 2023-06-15 10:30:42 · 1256 阅读 · 0 评论 -
清理ceph集群-重建ceph集群
清理ceph集群-重建ceph集群原创 2023-06-09 11:07:23 · 650 阅读 · 0 评论 -
ceph osd快满的粗暴处理方法
osd所在的磁盘满了,超过了mon_osd_full_ratio的阈值,导致集群HEALTH_ERR原创 2023-03-30 20:53:51 · 741 阅读 · 0 评论