【导读】分布式存储系统本身对数据分布有三个基本诉求,而Ceph的数据分布算法机制则满足了分布式存储所要求的这三个基本诉求,那么这是如何实现的?本文将为你解析 Ceph 的数据分布算法。
1. 引言
数据分布是分布式存储系统的要解决的首要问题,在分布式存储系统当中,最核心也是最基本的要求就是数据的分布算法或者规则能够解决以下几个问题:
(1) 数据负载均衡:数据能够均匀地分布在磁盘容量不等的存储节点;
(2) 故障隔离:保障不同的数据副本分布于不同的故障隔离域;
(3) 节点变动与数据迁移:正常节点上的迁移影响达到最小,数据量达到最少。
很多分布式存储系统都会用到一致性哈希算法来支撑其数据的均衡分布。例如在Aamzon的Dyanmo键值存储系统,OpenStack的Swift对象存储系统。而Ceph的数据分布主要是靠哈希和CRUSH算法支撑的,而CRUSH算法又是其核心算法。
2. Object_PG映射算法
2.1 映射过程
从客户端维度看Object-PG的过程,需要经过两个关键步骤:
(1)File —> Object:将文件按照固定粒度大小(2M/4M)进行切分,得到对象(Obj-ID);
(2)Object —> PG:通过哈希算法HASH(Obj-ID) % PG_Number,得到PG(PG-ID&#x