方案
快照算法通常有写时拷贝COW和写时映射ROW两种,对于不同的应用需求,这两种算法有各自的优缺点。从结构上分,快照有草型快照和链式快照之分,不同的结构有不同的效率和性能。
COW(Copy-On_Write):写时拷贝
创建快照后,原始数据盘上有数据更新,则将对应位置数据从原始盘拷贝到额外存储空间(快照盘)-> 元数据记录数据更新位置 -> 将数据写入原始数据盘。 一次数据更新涉及两次写盘操作。
源盘保存完成的实时数据。
采用COW方式实现快照,每次数据更新会涉及两次写盘操作,影响源盘的写性能。
COW快照之间独立,无关联。
ROW(Redirect-On-Write):写时重定向
创建快照后,原始数据盘上有数据更新,将IO重定向到额外的存储空间(快照盘),数据直接写入到快照盘,同时元数据记录数据更新位置。一次数据更新仅涉及到对快照盘的一次写盘操作。
源盘保存快照创建前的完整数据。
ROW快照,当创建多个快照时,快照之间关联形成快照链。删除快照或快照回滚时,逻辑上比较复杂。
COW和ROW在创建快照时均不产生额外存储空间,只有当对源盘进行数据更新时才涉及存储空间的分配。
综合COW和ROW的实现原理,实现快照功能涉及如下部分:
- 源盘:数据存储的原始逻辑盘,以此盘为
- 快照盘:创建快照时分配,用来存储快照创建后有数据更新时的源盘数据(COW)或更新数据(ROW)。 快照盘同原始盘容量大小相同。
- 元数据:记录数据更新位置,通过检索元数据来进行数据重定向。元数据需要持久化,且重启后重构并加载到内存。
- 快照:记录源盘与快照盘的对应关系,根据快照可以获取其对应的原始盘和快照盘。
费曼方法
- COW:创建快照时不拷贝,只有写原盘时,会将原盘的东西拷贝到快招盘,然后才写入原盘(原盘一直保存最新的数据)
- ROW:原盘一直不动,保存快照的完整数据,新数据写入快照盘。
- COW与ROW最大的不同是,COW的快照盘存放的是原始数据,而ROW的快照盘存放的是新数据
比较 | cow | row |
---|---|---|
写源盘 | 影响 | 无影响 |
读源盘 | 无影响 | 影响 |
读快照 | 读重定向,有轻微时延 | 读重定向,有轻微时延 |
删除快照 | 瞬间完成 | 需要数据拷回源盘,耗时很久 |
应用场景 | read-intensive | write-intensive |
镜像复制方案
- 存储集群从镜像系统中拉取,集群整体复制速度(并行度)受到镜像系统的限制,原始
- p2p,存储节点互访,拉取对应的数据分片,阿里
- 镜像集群和存储集群放在一起,需要的时候原地复制,阿里
- client侧做COW,后端数据慢慢搬移,腾讯