Rsync核心算法讲解


  • 为了方便理解,假设:
    同步源文件名为fileSrc,同步目的文件叫fileDst

1. 分块Checksum算法

(1). 首先,把fileDst的文件平均切分成若干个小块

  • 比如每块512个字节(最后一块会小于这个数)

(2). 然后对每块计算两个checksum(校验和)

  • 一个是rolling checksum,是32位的弱checksum(弱校验和)
    其使用的是Mark Adler的adler-32算法
    弱校验和用于区别不同

这样还不够,因为adler32算法碰撞概率太高了,所以还要引入强的checksum算法以保证两文件块是相同的

  • 另一个是128位的强checksum(强校验和)
    以前用md4(硬件上跑md4的算法太慢了),现在用md5 hash算法。
    强校验和用来确认相同

2. 传输算法

同步目标端会把fileDst的一个checksum列表传给同步源
这个列表里包括了三个东西:

  1. rolling checksum(32bits)
  2. md5 checksume(128bits)
  3. 文件块编号。

同步源机器拿到了这个列表后,会对fileSrc做同样的checksum,然后和fileDst的checksum做对比,这样就知道哪些文件块改变了


3. checksum查找算法

在传输算法中仍有以下两个疑问:

  1. 如果fileSrc在文件中间加了一个字符,这样后面的文件块都会位移一个字符,这样就完全和fileDst这边的不一样了,但理论上来说,应该只需要传一个字符就好。这个怎么解决?
  2. 如果这个checksum列表特别长,而两边的相同的文件块可能并不是一样的顺序,那就需要查找,线性的查找起来应该特别慢吧。这个怎么解决?

checksum查找算法:

  1. 同步源端拿到fileDst的checksum数组后,会把这个数据存到一个hash table
  2. 用rolling checksum做hash,以便获得O(1)时间复杂度的查找性能。
    这个hash table是16bits的,所以,hash table的size是2的16次方,故rolling checksum的hash会被散列到0 到 2^16 – 1中的某个整数值

!注意不是“要对rolling checksum做排序”,而是把fileDst的checksum数据,按rolling checksum做hash存到2^16的hash table中。

  • 当然会发生碰撞,把碰撞的部分做成一个链表就能解决问题。这就是原文中所说的“搜索有碰撞的情况”的解决方法。

4. 比对算法

这是最关键的算法,细节如下:

  1. 取fileSrc的第一个文件块(假设的是512个长度),即从fileSrc的第1个字节到第512个字节,取出来后做rolling checksum计算。将计算好的值到hash表中查。

  2. 如果查到了,说明发现在fileDst中有潜在相同的文件块,于是就再比较md5的checksum,因为rolling checksume太弱了,可能发生碰撞。于是还要算md5的128bits的checksum——即强校验和用来确认相同

  • 这样一来,便只有 2 − ( 32 + 128 ) = 2 − 160 2^{-(32+128)}= 2^{-160} 2(32+128)=2160的概率发生碰撞,这太小了可以忽略。如果rolling checksum和md5 checksum都相同,这说明在fileDst中有相同的块,需要记下这一块在fileDst下的文件编号。
  1. 如果fileSrc的rolling checksum 没有在hash table中找到,那就不用算md5 checksum了——即弱校验和用于区别不同

总之,只要rolling checksum 或 md5 checksum 其中有一个在fileDst的checksum hash表中找不到匹配项,那么就会触发算法对fileSrc的rolling动作。于是,算法会住后step 1个字节,取fileSrc中字节2-513的文件块要做checksum,重新从步骤 (4.1)开始 。这样可以找出fileSrc相邻两次匹配中的那些文本字符,这些就是要往同步目标端传的文件内容了


5. 例图

在这里插入图片描述
在同步源这端,rsync算法可能会得到下面这个样子的一个数据数组:
在这里插入图片描述
上图中:

  • 红色块表示在目标端已匹配上,不用传输
  • 白色的地方就是需要传输的内容(非匹配数据)
  • 同步源这端把这个数组(白色的就是实际内容,红色的就放一个标号)压缩传到目的端,在目的端的rsync会根据这个表重新生成文件,同步完成。

Rsync相关工作实现过程 推荐阅读文章:Rsync镜像备份工作原理(含流程示意图)


  • 3
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

狱典司

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值