解析 Ceph 的数据分布算法

最新推荐文章于 2024-04-23 13:36:22 发布

罗伯特之技术屋

最新推荐文章于 2024-04-23 13:36:22 发布

阅读量852

点赞数

分类专栏：网络通信安全及科学技术专栏文章标签： ceph 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_57147647/article/details/127203515

版权

网络通信安全及科学技术专栏专栏收录该内容

179 篇文章 14 订阅 ¥69.90 ¥99.00

订阅专栏

超级会员免费看

【导读】分布式存储系统本身对数据分布有三个基本诉求，而Ceph的数据分布算法机制则满足了分布式存储所要求的这三个基本诉求，那么这是如何实现的？本文将为你解析 Ceph 的数据分布算法。

1. 引言

数据分布是分布式存储系统的要解决的首要问题，在分布式存储系统当中，最核心也是最基本的要求就是数据的分布算法或者规则能够解决以下几个问题：

（1）数据负载均衡：数据能够均匀地分布在磁盘容量不等的存储节点；

（2）故障隔离：保障不同的数据副本分布于不同的故障隔离域；

（3）节点变动与数据迁移：正常节点上的迁移影响达到最小，数据量达到最少。

很多分布式存储系统都会用到一致性哈希算法来支撑其数据的均衡分布。例如在Aamzon的Dyanmo键值存储系统，OpenStack的Swift对象存储系统。而Ceph的数据分布主要是靠哈希和CRUSH算法支撑的，而CRUSH算法又是其核心算法。

2. Object_PG映射算法

2.1 映射过程

从客户端维度看Object-PG的过程，需要经过两个关键步骤：

（1）File —> Object：将文件按照固定粒度大小（2M/4M）进行切分，得到对象（Obj-ID）；

（2）Object —> PG：通过哈希算法HASH(Obj-ID) % PG_Number，得到PG（PG-ID&#x

了解本专栏

超级会员免费看

罗伯特之技术屋

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
解析 Ceph 的数据分布算法

按照前文的解释，Item本身是一个包含了Bucket下面所有OSD及其权重Weight的集合，目标是权重最大，但是如何遍历就取决于Items的几种数据结构组织模式，也就是Bucket实例参数当中的 alg （Uniform、List、Tree、Straw），不同的数据结构在寻址复杂性以及集群变化后的受影响程度上都会有较大的差异。前面的章节介绍，我们基本解决了从PG到OSD这个路径当中的大部分问题，只剩下唯一的问题就是用什么样的算法去遍历Bucket下面的所有Leaf节点，以确定最终的OSD。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

罗伯特之技术屋 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。