前言
尽管ceph可以提供出多个pool,很多情况下,客户的所有的业务数据位于一个pool内。这种情况下,主要使用的pool的PG分布是否均匀,就决定了各个OSD的使用是否均匀。
CRUSH算法让PG均匀地分布在各个OSD上,但这仅仅是概率上的平均,实际使用中,经常发生不均匀的情况,甚至出现非常不均匀的情况。
我们以pg_num = 1024的双副本pool为例,对于该pool,一共有2048个PG,这2048个PG分布在OSD上。如果Pool中有10个OSD,那么平均每个OSD应该分到204~205个PG,但是CRUSH算法不是round-robin,无法做到这么平均。
如果OSD.X分到最多的PG,240个,而OSD.Y分到最少的PG 180个,那么会有更多的数据写入OSD.X,这种现象对带来两个弊端:
* 业务压力并不平衡,极端情况下,因为OSD.X先到性能瓶颈而影响整个集群的性能
* 长此以往,磁盘使用率不均匀,当OSD.X使用率到达95%而不能再写入时,OSD.Y的使用率才到71%
因此,知道Pool上PG在OSD上的分布,在不均匀的情况下采取必要措施是十分必要的
获取Pool上PG分布
- 获取OSDMap
ceph osd getmap -o om
- 获取crushmap
ceph osd getcrushmap -o cm
或者
osdmaptool om --export-crush cm
- 获取指定pool上PG 的分布
osdmaptool om --import-crush cm --test-map-pgs --pool 5
下面以一个实际中的pool为例,查看PG在OSD的分布情况
不难看出,PG分布的比较不均匀,但总体上来说还好,osd.4上的PG数最多 348个PG,而osd.3上PG数最少,只有326,平均下来,osd.4的负载要比osd.3的重,如果不同OSD之间使用量差距很大就需要引起注意