Amortized analysis平摊分析——记算法导论视频总结

最新推荐文章于 2021-11-30 21:57:58 发布

jasonxty

最新推荐文章于 2021-11-30 21:57:58 发布

阅读量1.6k

点赞数

分类专栏：基础算法技术文章标签：算法导论

本文链接：https://blog.csdn.net/xtydtc/article/details/51627411

版权

基础算法技术专栏收录该内容

6 篇文章 0 订阅

订阅专栏

引言：在不知道总共有多少元素的情况下，一个哈希表应该多大？一个方法是动态表dynamic table。当数据溢出的时候double表格。将原来数据移动到新表，并释放旧表。

那么如何分析每一次插入操作所需的赋值次数呢？对于这个问题最简单直观的方法是用聚集方法（aggregate analysis），即不直接分析每一次的赋值次数而分析n次插入的赋值次数。
具体分析如下：

观察可知
$C = \sum i = 1 n C i = n + \sum j = 0 l g (n - 1) 2 j \leq 3 n = θ (n)$ $C = \sum_{i=1}^{n}C_i=n+\sum_{j=0}^{lg(n-1)}2^j\leq3n=\theta(n)$
第二种分析方法是会计方法（accounting argument），这个方法和第三种势能方法相对于聚集方法更加准确的分析每一步操作的平摊成本。这种方法假设自己是一个会计，对每一步操作都收取平摊费用，每次收取的平摊费用除了用于当次操作，剩下的钱存入银行，用于下一次操作，这就要保证银行的钱一直是正的。对于动态表插入问题，只需假设每一步的平摊费用是3元，其中1元用于当次赋值，1元用于下一次赋值到新表，1元用于承担旧有的项赋值到新表。同样可以得出3n的结果。方法的关键在于确定每一步的平摊费用。
第三种方法是势能方法（potential function method），势能方法将会计方法中的“银行账户”定义为势能。要解释清楚这种方法先做以下假设。
- 从数据结构 $D_0$ 开始，操作 $i$ 将 $D_{i-1}$ 转化为 $D_{i}$
- 每次操作的成本是 $C_i$
- 定义势能函数 $\Phi,\Phi : \{ D_i \} \xrightarrow{}{\rm I\!R}$
- $\Phi(D_0)=0$
- $\Phi(D_i)\geq0$
那么平摊成本可以如下表示：

$C ˆ i = Φ (D i) - Φ (D i - 1) + C i$ $\widehat C_i = \Phi(D_i)-\Phi(D_{i-1})+C_i$
如果 $\Delta \Phi_i > 0$ 表示平摊成本过多，操作 $i$ 将额外的能量存储在数据结构 $D_{i}$ 中,用于之后的操作；如果 $\Delta \Phi_i < 0$ 表示平摊成本不足，那么数据结构 $D_{i-1}$ 中的能量就拿出来用于操作。这样就可以通过平摊成本去估计算法实际操作的成本。方法的可行性描述如下。
$\sum i = 1 n C ˆ i = \sum i = 1 n [Φ (D i) - Φ (D i - 1) + C i] = \sum i = 1 n C i + Φ (D n) - Φ (D 0) \geq \sum i = 1 n C i$ $\sum_{i=1}^{n}\widehat C_i = \sum_{i=1}^{n} [\Phi(D_i)-\Phi(D_{i-1})+C_i]=\sum_{i=1}^{n}C_i+\Phi(D_n)-\Phi(D_0) \geq\sum_{i=1}^{n}C_i$
所以这个方法的关键是想办法找到问题对应的 $\Phi$ 。对于动态表它的 $\Phi(D_i)=2i-2^{\lceil lg i \rceil}$ ，这个不容易想到，所以对于动态表问题，用前两种平摊分析方法优越于势能方法。

但是，在竞争分析（Competitive analysis）中，势能方法体现了强大而优美的作用，这里面以自组织表（self-organizing lists）为例，详细解释这种强大的分析方法，自组织表有点像搜索引擎的索引。本文讨论的自组织链表基于以下假设
- 一个有 $n$ 个元素的表
- 访问元素 $x$ 的成本是 $rank(x)$ ，即 $x$ 到表头的距离。
- 表可以通过相邻元素的移项进行重排，每次移项的成本是1。
在对表访问的时候，我们希望被访问的元素尽可能靠近表头，从而加快访问的速度，因此在每次访问某元素后都要对表格作一定的调整。那么怎样调整呢？为了方便的讨论不同方法调整的效果，下面引入两个定义。
- 在线算法（online algorithm），每次操作仅提供操作序列 $S$ 中的一个操作，在线算法无法利用未来的操作信息去改进操作过程，对于自组织表问题，也即无法根据未来的访问方式调整表，只能根据当前的访问改进表。
- 离线算法（off-line algorithm），可以看到整个操作序列，从而根据每一次访问和已知的未来访问序列，产生最好的调整方法。
一个直觉的想法是，记录每个元素被访问的次数，从而使得表中的元素根据访问次数从高到低进行排序。但这样的操作似乎太费劲了。在实际引用中，一般是使用MTF策略，即每次访问一个元素 $x$ ，访问完了之后将它移动的到表头。它的成本是 $2rank(x)$ 。这种策略对局部性有很好的表现，因为通常访问都很集中。下面通过竞争分析说明这种方法的有效性。首先有以下两个定义。
- 一个在线算法是 $\alpha$ Competitive，如果存在常数 $k$ ，使得算法在操作序列 $S$ 上的成本 $C_A(S) \leq \alpha C_{opt}(S)+k$ ，其中 $C_{opt}(S)$ 是最优离线算法（也加God’s algorithm）的成本。这个定义非常强大，因为它不需要对操作序列 $S$ 作任何假设。
- Proof
假设 $L_i$ 是使用MTF方法，第 $i$ 次访问后的表， ${L_i}^*$ 表示使用OPT方法，第 $i$ 次访问后的表。
$C_i=2rank_{L_{i-1}}(x)$ 表示MTF方法在第i次操作时候的成本。 ${C_i}^*=rank_{{L_{i-1}}^*}(x)+t_i$ 表示OPT方法在第i次操作时候的成本, $t_i$ 表示OPT方法移项的次数。下面定义针对这一问题的势能函数。

Φ (L i) = 2 | (x, y), x ≺ L i y a n d y ≻ L i * x |

$\Phi(L_i)=2|(x,y),x\prec _{L_i}y \ and \ y\succ _{{L_i}^*}x|$ 也就是

Φ(Li)=2inversions $\Phi(L_i) = 2inversions$ ，即两倍的逆序对，之所以是两倍的逆序对是因为有利于后期的消项。这个势能函数满足势能函数的定义。

Φ(Li)≥0,Φ(L0)=0 $\Phi(L_i)\geq0,\Phi(L_0)=0$ 。每一个移项对于

Φ $\Phi$ 的改变是

±2 $\pm2$ 。再引入以下四个集合的定义。

A = {y \in L i - 1, y ≺ L i - 1 x a n d y ≺ L i - 1 * x}

$A = \big \{ y\in L_{i-1}, y \prec _{L_{i-1}}x \ and \ y\prec_{{L_{i-1}}^*}x \big \}$

B = {y \in L i - 1, y ≺ L i - 1 x a n d y ≻ L i - 1 * x}

$B = \big \{ y\in L_{i-1}, y \prec _{L_{i-1}}x \ and \ y\succ_{{L_{i-1}}^*}x \big \}$

C = {y \in L i - 1, y ≻ L i - 1 x a n d y ≺ L i - 1 * x}

$C = \big \{ y\in L_{i-1}, y \succ _{L_{i-1}}x \ and \ y\prec_{{L_{i-1}}^*}x \big \}$

D = {y \in L i - 1, y ≻ L i - 1 x a n d y ≻ L i - 1 * x}

$D = \big \{ y\in L_{i-1}, y \succ _{L_{i-1}}x \ and \ y\succ_{{L_{i-1}}^*}x \big \}$
那么元素

x $x$ 在

Li−1 $L_{i-1}$ 和

Li−1∗ ${L_{i-1}}^*$ 中的位置可以表示如下。

r = | A | + | B | + 1

$r = |A| + |B| + 1$

r * = | A | + | C | + 1

$r^* = |A| + |C| + 1$
用MTF当请求访问

x $x$ 的时候生成了

|A| $|A|$ 个逆序对，消除了

|B| $|B|$ 个逆序对。假设当用OPT请求访问

x $x$ 的时候，进行了

ti $t_i$ 次移项，那么因为每次移项最多产生一个逆序对。所以

Φ (L i) - Φ (L i - 1) \leq 2 (| A | - | B | + t i)

$\Phi(L_i)-\Phi(L_{i-1}) \leq 2(|A|-|B|+t_i)$

C ˆ i = C i + Φ (D i) - Φ (D i - 1) = 2 (| A | + | B | + 1) + 2 (| A | - | B | + t i) = 4 | A | + 2 t i + 2 \leq 4 (r * + t i) = 4 C i *

$\widehat C_i = C_i + \Phi(D_i)-\Phi(D_{i-1}) \\ \qquad \qquad \qquad \ = 2(|A|+|B|+1)+2(|A|-|B|+t_i) \\ \qquad \quad \quad \quad \ \ =4|A|+2t_i+2 \leq 4(r^*+t_i)=4{C_i}^*$ 因此

C M T F (S) = \sum i = 1 n C i = \sum i = 1 n (C ˆ i - Φ (D i) + Φ (D i - 1)) \leq \sum i = 1 n C ˆ i + Φ (L 0) - Φ (L i) \leq 4 C O P T (S)

$C_{MTF}(S)=\sum_{i=1}^{n}C_i=\sum_{i=1}^{n}(\widehat C_i - \Phi(D_i)+\Phi(D_{i-1}) ) \\ \leq \sum_{i=1}^{n} \widehat C_i +\Phi(L_0)-\Phi(L_i) \\ \leq 4C_{OPT}(S)$
综上，MTF是4-competitive的。在实际应用中，将表中最后一个元素移动到表头，只要简单指针操作，因此可以认为这个操作free。在这种情况下，Sleator and Tarjan 给出了理论证明，证明此时MTF是2-Competitive的。 总结：势能方法应用的关键是定义一个好的势能函数，而势能函数的定义又跟问题本身密切相关，本文中的关键应该是用逆序对去描述两个表的差异，从而引出势能函数，然后顺利的用集合去描述元素

x <script type="math/tex" id="MathJax-Element-7766">x</script>的位置。

参考文献：
DANIEL D. SLEATOR and ROBERT E. TARJAN, Amortized Efficiency of List Update and Paging Rules, Programming Techniques and Data Structures 202-208.

jasonxty

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Amortized analysis平摊分析——记算法导论视频总结

引言：在不知道总共有多少元素的情况下，一个哈希表应该多大？一个方法是动态表dynamic table。当数据溢出的时候double表格。将原来数据移动到新表，并释放旧表。那么如何分析每一次插入操作所需的赋值次数呢？对于这个问题最简单直观的方法是用聚集方法（aggregate analysis），即不直接分析每一次的赋值次数而分析n次插入的赋值次数。具体分析如下：观察可知 C=∑
复制链接

扫一扫