背景:
有时候创建pool会报错,原因也摸索到了一些,大致都是osd数量不足导致
例如:
“Error ERANGE: pg_num 64 size 3 would mean 840 total pgs, which exceeds max 750 (mon_max_pg_per_osd 250 * num_in_osds 3)”
“Reduced data availability: 64 pgs inactive, 64 pgs incomplete”---这个报错基本是纠删码k大了。
根本原因就是osd数量不足,起的太大。
如何计算呢,继续往下看:
如果您的 OSD 超过 50 个,我们建议每个 OSD 使用大约 50-100 个 PG,以平衡资源使用、数据持久性和数据分布。 如果您的 OSD 少于 50 个,请遵循预选部分中的指导。 对于单个池,使用以下公式获取基线值:
PG 总数 = \(\frac{OSD \times 100}{pool \: size}\)
其实就是pg总数 = (osd数 * 100)/ pool-size
这里的池大小要么是复制池的副本数量,要么是纠删码池的 K+M 总和。 要检索此总和,请运行命令
ceph osderasure-code-profile get
接下来,检查生成的基线值是否与您设计 Ceph 集群的方式一致,以最大限度地提高数据持久性和对象分布并最大限度地减少资源使用。
该值应向上舍入到最接近的 2 的幂。
每个池的 pg_num 应该是 2 的幂。 其他值可能会导致 OSD 之间的数据分布不均匀。 最好仅在可行且需要设置下一个最高的 2 次方时才增加池的 pg_num。 请注意,这个二的幂规则是针对每个池的; 将所有池的 pg_num 之和对齐到 2 的幂既不必要也不容易。
例如,如果您有一个包含 200 个 OSD 的集群和一个大小为 3 个副本的池,请按如下方式估计 PG 数量:
\(\frac{200 \times 100}{3} = 6667\)。 四舍五入到最接近的 2 次方:8192。
使用多个数据池存储对象时,请确保平衡每个池的 PG 数量与每个 OSD 的 PG 数量,以便获得合理的 PG 总数。 找到一个能够为每个 OSD 提供相当低的方差且不会增加系统资源负担或使对等过程过慢的数字非常重要。
例如,假设您有一个由 10 个池组成的集群,每个池在 10 个 OSD 上有 512 个 PG。 这相当于 5,120 个 PG 分布在 10 个 OSD 上,或者每个 OSD 512 个 PG。 这个集群不会使用太多的资源。 然而,在一个由 1,000 个池组成的集群中,每个池在 10 个 OSD 上有 512 个 PG,每个 OSD 必须处理大约 50,000 个 PG。 该集群将需要更多的资源和更多的时间来进行对等互连。
为了确定每个 OSD 的最佳 PG 数量,我们推荐使用 PGCalc 工具。
欲知更多,可自查官方文档:
Placement Groups — Ceph Documentation
总结:
pool的pg计算和规划值都是大概,一般都是取个大概,比计算出来的值小些且是2的次方数左右即可。
ps:
还有一点需要提醒的就是,pool如果做了相应的rule,只落到某个root故障域下,那么osd的数量要以那个rule下的故障域中存在的osd为准。