算法导论 — 思考题8-1 比较排序的概率下界-CSDN博客

本文链接：https://blog.csdn.net/yangtzhou/article/details/104034207

（比较排序的概率下界）在这一问题中，我们将证明对于给定的 $n$ 个互异的输入元素，任何确定或随机的比较排序算法，其概率运行时间都有下界 $Ω(n{\rm lg}n)$ 。首先来分析一个确定的比较排序算法 $A$ ，其决策树为 $T A$ 。假设 $A$ 的输入的每一种排列情况都是等可能的。
　　a. 假设 $T A$ 的每个叶结点都标有在给定的随机输入情况下到达该终点的概率。证明：恰有 $n!$ 个叶结点标有 $1 / n!$ ，其他叶结点标记为 $0$ 。
　　b. 定义 $D (T)$ 表示一棵决策树 $T$ 的外部路径长度，即 $D (T)$ 是 $T$ 的所有叶结点深度的和。假设 $T$ 为一棵有 $k > 1$ 个叶结点的决策树， $L T$ 和 $R T$ 分别是 $T$ 的左子树和右子树。证明： $D (T) = D (L T) + D (R T) + k$ 。
　　c. 定义 $d (k)$ 为所有具有 $k > 1$ 个叶结点的决策树 $T$ 的最小 $D (T)$ 值。证明： $d(k)=\min\limits_{1≤i≤k-1}⁡\{d(i)+d(k-i)+k\}$ 。（提示：考虑一棵能够取得该最小值的、有 $k$ 个叶结点的决策树 $T$ 。设 $i_0$ 是 $L T$ 中的叶结点数， $k−i_0$ 是 $R T$ 中的叶结点数。）
　　d. 证明： $d$ 对于给定的 $k (k > 1)$ 和 $i (1 \leq i \leq k - 1)$ ，函数 $i{\rm lg}i+(k-i){\rm lg}⁡(k-i)$ 在 $i = k / 2$ 处取得最小值，并有结论 $Ω(k{\rm lg}k)$ 。
　　e. 证明： $Ω(n!{\rm lg}(n!))$ ，并得出在平均情况下，排序 $n$ 个元素的时间代价为 $Ω(n{\rm lg}n)$ 这一结论。
　　现在来考虑一个随机化的比较排序 $B$ 。通过引入两种结点，我们可以将决策树模型扩展来处理随机化的情况。这两种结点是：普通的比较结点和“随机化”结点。随机化结点刻画了算法 $B$ 中所做的形如 ${\rm RANDOM}(1, r)$ 的随机选择情况。该类结点有 $r$ 个子结点，在算法执行过程中，每一个子结点等概率地被选择。
　　f. 证明：对任何随机化比较排序算法 $B$ ，总存在一个确定的比较排序算法 $A$ ，其期望的比较次数不多于 $B$ 的比较次数。
　　
　　解
　　a.
　　题干有假设比较排序算法 $A$ 的输入的每一种排列情况都是等可能的。输入有 $n$ 个互异元素，一共有 $n!$ 种可能的排列，每种排列出现的概率都是 $1 / n!$ 。如果对应到决策树上，则恰有 $n!$ 个叶结点标有概率 $1 / n!$ ，其他叶结点标记概率为 $0$ 。因为这 $n!$ 个概率为 $1 / n!$ 叶结点对应 $n!$ 种可能的排列，而其他叶结点表示不可能出现的排列。
　　
　　b.
　　假设左右子树 $L T$ 和 $R T$ 分别有 $k_1$ 和 $k_2$ 个叶结点，显然有 $k_1 + k_2 = k$ 。假设左子树 $L T$ 的叶结点的在左子树 $L T$ 的深度分别为 $l_1, l_2, …, l_{k1}$ ，假设右子树 $R T$ 的叶结点的在右子树 $R T$ 的深度分别为 $r_1, r_2, …, r_{k2}$ ，于是有
　　　　 $D(LT)=\sum\limits_{i=1}^{k_1}l_i$
　　　　 $D(RT)=\sum\limits_{i=1}^{k_2}r_i$
　　我们要计算 $D (T)$ ，就要考察所有叶结点在决策树 $T$ 上的深度。相比叶结点在各自子树 $L T$ 或 $R T$ 上的深度，叶结点在决策树 $T$ 上的深度增加了 $1$ 。即左子树 $L T$ 的叶结点在决策树 $T$ 上的深度为 $l_1+1, l_2+1, …, l_{k1}+1$ ，右子树RT的叶结点的在决策树 $T$ 的深度分别为 $r_1+1, r_2+1, …, r_{k2}+1$ 。于是有
　　　　 $D(T)=\sum\limits_{i=1}^{k_1}(l_i+1) +\sum\limits_{i=1}^{k_2}(r_i+1) =\sum\limits_{i=1}^{k_1}l_i +\sum\limits_{i=1}^{k_2}r_i +\sum\limits_{i=1}^k1=D(LT)+D(RT)+k$
　　
　　c.
　　考虑一棵有 $k > 1$ 个叶结点的决策树 $T$ ，它的左子树 $L T$ 有 $i$ 个叶结点，那么它的右子树 $R T$ 有 $k - i$ 个叶结点。显然， $i$ 的取值范围为 $1 \leq i \leq k - 1$ 。对于一个确定的 $i$ ，左子树 $L T$ 的最小 $D (L T)$ 值为 $d (i)$ ，右子树 $R T$ 的最小 $D (R T)$ 值为 $d (k - i)$ 。借用问题b的结论，对于一个确定的 $i$ ，决策树 $T$ 的最小 $D (T)$ 值 $d_i(k) = d(i) + d(k−i) + k$ 。为了得到决策树 $T$ 的最小 $D (T)$ 值 $d (k)$ ，可以遍历 $i = 0, 1, \dots, k$ ，取最小的 $d_i(k)$ ，即
　　　　 $d(k)=\min\limits_{1≤i≤k-1}⁡\{d(i)+d(k-i)+k\}$
　　
　　d.
　　令函数 $f(i)=i{\rm lg}i+(k-i){\rm lg}⁡(k-i)$ ，它的导数为
　　　　 $f'(i)={\rm lg}i+i∙\frac{1}{i∙ln2}-{\rm lg⁡}(k-i)-(k-i)\frac{1}{(k-i)∙ln2}={\rm lg}i-{\rm lg}⁡(k-i)$
　　当 $i = k / 2$ 时， $f ’ (i) = 0$ 。当 $i < k / 2$ 时， $f ’ (i) < 0$ ；当 $i > k / 2$ 时， $f ’ (i) > 0$ 。所以函数 $f (i)$ 在 $i = k / 2$ 处取得最小值，最小值为 $k{\rm lg}k-k$ 。
　　接下来证明 $Ω(k{\rm lg}k)$ ，我们采用代入法。 $Ω(k{\rm lg}k)$ 意味着存在一个正常数 $c$ ，使得当 $k$ 足够大时，有 $ck{\rm lg}k$ 成立。
　　先考察初始情况 $k = 1$ ，此时决策树 $T$ 只有一个叶结点，当这个叶结点就是根结点时，决策树 $T$ 的 $D (T)$ 值最小。由于根结点的深度为 $0$ ，故此时 $D (T) = 0$ ，即 $d (1) = 0$ 。显然， $c$ 可以取任意正常数，都能使得 $c∙1∙{\rm lg}1 = 0$ 成立。
　　现在进入归纳过程。假设 $ck{\rm lg}k$ 对 $1, 2, \dots, k - 1$ 都成立。根据问题c的结论，有
　　　　 $d(k)=\min\limits_{1≤i≤k-1}\{d(i)+d(k-i)+k\}$
　　　　　　　 $≥\min\limits_{1≤i≤k-1}\{ci{\rm lg}i+c(k-i){\rm lg}(k-i)+k\}$
　　　　　　　 $=c∙\min\limits_{1≤i≤k-1}\{i{\rm lg}i+(k-i){\rm lg}(k-i)\}+k$
　　根据上文分析，当 $i = k / 2$ 时， $i{\rm lg}i+(k-i){\rm lg}(k-i)$ 取得最小值 $k{\rm lg}k-k$ 。于是上式可以继续变换为
　　　　 $d(k)≥c∙\min\limits_{1≤i≤k-1}\{i{\rm lg}i+(k-i){\rm lg}(k-i)\}+k=c(k{\rm lg}k-k)+k=ck{\rm lg}k+(1-c)k$
　　根据上式，只要取 $c \leq 1$ ，就能使得 $d(k)≥ck{\rm lg}k$ 成立。
　　综上所述， $Ω(k{\rm lg}k)$ 成立。
　　
　　e.
　　对于一个 $n$ 个元素的确定的比较排序算法 $A$ ，其决策树 $T A$ 的叶结点数目至少为 $n!$ ，对应 $n!$ 种可能的排列。那么决策树 $T A$ 的 $D (T A)$ 值的下限为 $Ω(n!{\rm lg}(n!))$ 。
　　现在考察平均情况下排序 $n$ 个元素的时间代价，实际上要考察的是平均情况下单个叶结点的深度，即单个叶结点的深度的期望值 $E [D e p t h (i)]$ 。现在我们来计算所有叶结点的深度的期望和
　　　　 $\sum\limits_{i=1}^{n!}E[Depth(i)] =E[\sum\limits_{i=1}^{n!}Depth(i) ]=E[D(T_A )]=Ω(n!{\rm lg}(n!))$
　　由于每个叶结点的概率值是一样的，所以每个叶结点的深度的期望值也是相等的。于是单个叶结点的深度的期望值 $E[Depth(i)]=(1/n!)∙Ω(n!{\rm lg}(n!))=Ω({\rm lg}(n!))=Ω(n{\rm lg}n)$ 。于是，平均情况下排序 $n$ 个元素的时间代价为 $Ω(n{\rm lg}n)$ 。
　　
　　f.
　　笔者还未能理解题目意思，以后再补上。