数据结构（邓俊辉）学习笔记】排序 5——选取：通用算法

本文链接：https://blog.csdn.net/weixin_44399845/article/details/141993751

文章目录

1. 尝试
2. quickSelect
3.linearSelect：算法
4. linearSelect：性能分析
5. linearSelect：性能分析B
6. linearSelect：性能分析C

1. 尝试

在讨论过众数以及特殊情况下中位数的计算方法以后，接下来针对一般性的选取问题，介绍优化的通用算法。
在这里插入图片描述

既然选取问题的查找目标就是在整个数据集中按大小次序秩为 k 的那个元素，所以最直接不过的方法莫过于首先对整个数据集做一次排序。之后我们只需从首元素开始，依次向后移动，当累计移动了 k 步之后，我们也就自然的抵达了查找的目标。

然而很遗憾，这里首先需要做一趟排序。我们知道在最坏情况下，我们不得不为此花费 n log n的时间，对于这样一种性能，我们是不能满意的，正如我们马上就要看到的，实际上存在更为优化的算法。
在这里插入图片描述
当我们听到选取这个词时，或许很自然地会想起堆结构。没错，堆结构的主要功能也是在做某种意义上的选取，也就是选取其中的极值元素。从这个意义上讲，选取极值就是选取问题的一个特例，而反过来选取问题也是 getmax 之类操作的一般化推广，那么是否有可能借助堆结构来实现高效的选取操作呢？

沿着这个思路你或许会想出如这个图所示的一种方法。具体来说我们需要首先将所有的 N 个元素组织为一个堆。当然这里我们需要的是一个小顶堆，也就是说堆顶元素是全局的极小值。因此每当我们调用一次 delmin 接口，就可以摘出当前的极小值。就全局而言，第一次调用将会摘出全局的最小元，也就是秩为零者。而接下来的第二次调用将会得到全局秩为1者。因此在我们连续地对这个接口调用 k 次之后，整个堆的规模将变为 n - k。而此时的堆顶也就应该恰好是全局秩为 k 的那个元素。就第一步预处理，也就是建堆操作而言，我们性能还不差，我们可以直接调用弗洛伊德算法，也就说为此我们只需花费线性的时间。

然而此后对 delmin 接口的调用累计时间却很长。具体来说，我们每次都需要花费 logn 的时间，而总共需要调用 k 次。也就是说只要 k 在数量级上与 n 同阶，这个方法的渐进性能将与全排序的方法没有什么实质区别。
在这里插入图片描述

当然，我们也可以尝试利用堆的其他方法，比如一种可行的方案是：我们首先从数据集中任选出 k 个元素，并将它们组织为一个大顶堆。接下来对于剩余的 n - k 个元素，我们分别调用一次 insert 操作，将它插入堆中，然后随即调用一次 delmax 接口，摘除掉新的堆顶。

对于这样的每一步迭代，如果此前堆的规模为 k，那么在执行 insert 的操作之后，它的规模将变为 k + 1，在随后立即执行过delmax 操作之后，堆的规模又会从 k + 1重新恢复为 k。

请注意，当每一次这个堆的规模从 k 增加到 k + 1 时，对应的堆顶元素都是迄今为止发现的秩为 k 的那个元素。因此，当所有元素都经过如此处理之后，当这个堆的规模最后一次达到 k + 1 时，堆顶元素也就是全局秩为 k 的那个元素。

由此可见，按照这种方法我们的确可以完成选取的任务，然而同样很遗憾，它的时间复杂度依然不能得到有效的控制。具体的，为了构建初始的堆，我们这里同样只需线性的时间。然而在随后的 n - k 次迭代中，无论插入或者删除，我们都需要多达 log k 的时间。

但如果 k 非常小或者反过来非常大，这个算法的性能将接近于线性。然而，当 k 取值接近中间范围时，这个算法的复杂度又将重新回到 n log n。

在这里插入图片描述
当然利用堆结构来实现选取功能的方法还有很多，我们这里再来看其中的一种。具体来说，这里我们将使用两个，而不是一个堆。首先我们要从数据集中任取 k 个元素构建一个大顶堆 h。

相应的我们要将剩余的 n - k 个元素组织为一个小顶堆 g。接下来我们需要反复的比较这两个堆的堆顶，只要 h 大于 g，我们就令二者互换位置。然后分别通过一次下滤，将这两个堆重新复原，这个迭代将持续进行下去，直到最终 h 不再大于 g。

而一旦达到这种状态，对于 g 的顶元素，也就是我们要查找的目标，因为对于此时的这个元素来说，总共有 k 个元素不大于它，同时有 n - k - 1 个元素不小于它。尽管这种方法的构思非常精巧，但是同样的，它在最坏情况下的复杂度依然不能得到有效的控制。

2. quickSelect

在这里插入图片描述

我们接下来尝试方法，把将采用减而治之的策略，为此需要借用快速排序中的 partition 算法，因此这一算法也称作 quickselect。

你应该记得快速排序中的 partition 算法的功能就是在当前的序列中构造出一个轴点，我们也知道这个轴点具体的位置是随机的，取决于我们的运气，或者更准确地说取决于它相对于整个数据全集而言所拥有的秩。

在此我们不妨来设想一种最好的情况，是什么呢？是的，有可能这个候选轴点就是我们在 k 选取问题中的查找目标，也就是说它的秩恰好就是 k。果真如此的话，我们的计算量只不过是一趟partition，我们知道它所对应的运行时间不过 O(n）。

在一般的情况下，我们又当如何处理呢？不要紧，在一般的情况下，尽管这个候选轴点未必就是我们要查找的目标，但是根据它我们却可以对搜索的范围进行有效的裁剪。

具体的如这个图所示，假设我们的查找目标 k 对应于这个位置，而在经过 partition 操作使得我们候选轴点变成名副其实的轴点之后。如果它所对应的 i 不是我们的目标 k，那么根据 i 与 k 的大小关系无非两种情况。

我们知道在经过 partition 操作之后，这个轴点之所以成为一个名副其实的轴点，是因为在它左侧的元素都不大于它，而在它右侧的元素都不小于它。因此如果轴点的秩要比 k 更大，那么也就说明我们的目标元素必然存在于子序列 L 中，而与子序列 G 无关。这就意味着在这种情况下，我们可以将 G 减除掉。
对称的也同理，如果轴点的秩要小于 k，那么由图也可看出目标元素必然来自于子序列 G 中，而与子序列 L 无关。也就说在这种情况下，我们也可大胆地减除掉子序列 L。

综合起来，无论是哪种情况，我们都可以有效地使得问题的规模得到缩减。这样一个缩减的过程将持续进行下去，在整个问题的规模退化到平凡情况之前，我们迟早会找到目标元素。

比如这就是 quickselect 算法的一种可能实现。如刚才所言，整个算法就是一个反复迭代不断减而治之的过程。在每一步迭代中，我们都需要仿照快速排序中的 partition 算法构造出一个轴点，而且我们可以确定这个轴点的秩为 i。

以下无非刚才我们所说的两种情况。如果整点的秩不小于 k，那么就意味着子序列 G 可以被减除掉。为此，我们只需将有效区间的右边界更新为 i -1 ，对称的，如果轴点的秩不大于 k，这意味着子系列 L 可以被减除掉。为此我们只需将有效区间的左边界更新为 i + 1。

很遗憾，尽管这里旨在构造轴点的内循环，每趟只需线性的时间，但是我们却不能有效地控制外循环的执行次数。尽管可以证明在通常的随机意义下，外循环平均只需执行常数次，但是我们依然不难看出在最坏的情况下它依然需要执行多达 n 次。

因此就最坏情况而言，这个算法依然不是最优的。不过好消息是这个算法已经为我们通往最优的算法打开了通路。

3.linearSelect：算法

在这里插入图片描述

接下来将要介绍这个选取算法，就是在刚才 quickselect 算法的基础上进行的改进，因为这个算法即便在最坏情况下也只需渐进的线性时间，因此我们也称之为 Linearselect。

这个算法需要用到一个常数 Q，它的数值不大，我稍后就会具体来确定它的取值。这个Linearselect 算法将以递归形式给出，因此我们首先需要准备好递归基，也就是当问题的规模已经足够小时，不妨调用任何一种平凡的选取算法。

接下来我们需要将整个数据集均匀的切分为若干组，每一组依然是一个随机的序列。它们的规模都统一取做刚才引入的那个常数 Q。如此我们将得到 n/Q 个子序列。
接下来对于每一个这样的子序列，我们都分别对它们进行排序。没错，排序，而且在这里，你可以不必过于在意排序的效率。比如可以直接采用插入排序算法，而在经过如此排序之后，我们也就可以直接得到每一个子序列所对应的中位数。既然总共有 n/Q 个子序列，所以这里中位数也总共应该有 n/Q 个。
接下来我们再从所有这些中位数中去找到它们的中位数，也就是中位数的中位数(median of the medians) ，具体如何来找到呢？通过递归，也就是调用 Linearselect 算法本身，我们将这个中位数的中位数记作大写的 M。
接下来我们需要以这个中位数的中位数为基准，对整个数据集中的所有元素进行分类，具体来说，所有小于 M 的元素都归入 L 中，所有大于 M 的元素都归入到 G 中，而所有与之相等的元素都归入到集合 E 中。

此时的状态以及可能的情况可以由这组图来表示。既然这三个集合之间有明确的大小关系，所以无论如何，从大到小，它们必然是 L 在最左侧，E 居中以及 G 在最右侧。当然它们的规模大小可能有所不同。

不要忘了我们的查找目标是在全局秩为 k 的那个元素。所以接下来我们可以沿用 quickselect 算法的思路，根据不同的情况相应的对问题的规模进行裁剪，从而实现有效的减而治之。
具体来说，根据目标元素具体应该落在 L、E 或者 G 中。无非三种情况。如果 L 足够长，以致 k 应该落在其中。那么不难看出，E 以及 G 都可以被减除掉。

因此在这种情况下，我们只需将查找的范围缩减到子集 L，然后递归的进行查找。对称的，如果 G 足够大，则意味着 E 以及 L 都可以被减除掉。因此在这种情况下，我们同样可以将搜索的范围缩小到子集 G，并同样通过递归来完成后续的查找。

需要注意的是，如果子集 G 是以序列形式给出的，那么在这个序列中原先秩为 k 的那个目标元素在 G 中所对应的秩将有所减少。在这里我们不要忘了对它及时地更新。那么最后一种情况无非就是目标元素落在子集 E 中。不要忘了 E 中的元素都等于全局的那个中值，这意味着什么呢？没错，意味着全局的这个中值恰好就是我们的查找对象。也就说我们在这个位置已然命中，因此可以直接将其返回，这也是算法的最终出口。

这个 Linearselect 算法尽管略显复杂，但是我不难验证它在功能上的正确。因此我们接下来需要回答的关键问题就是，它的时间复杂度有多高，是否如它的名字所暗示的那样，即便在最坏的情况下也能保证不超过渐进的线性。

4. linearSelect：性能分析

在这里插入图片描述

接下来，就来对 Linearselect 算法的复杂度做一界定，按照我们习惯，将该算法所对应的运行时间记作 Tn，以下对照这个算法的各个步骤分别进行估算。

首先是作为递归基的第 0 步，我们讲过当问题规模已经降至足够小时，将直接采用任何一种平凡的算法，比如直接借助排序的方法，当然所对应的时间复杂度也自然就是 Q logQ。然而因为这里 Q 是取做一个常数，所以 Q logQ 实质上也是一个常数。
我们再来看算法有效的第一步，也就是对整个集合的均分，如果数据集合表示为序列，那么这一步只需对整个序列做一趟线性的扫描，因此我们也只需线性的时间。
接下来是对每一组元素进行排序并进而找出其中的中位数。同理，因为此时每个子序列的长度都不超过 Q，因此我们也可以认为每个子序列的排序都可以在常数时间内完成。考虑到总共有 n/Q 个子序列，因此所有这些子序列的排序，以及从中找出中位数，累计所需要的时间也依然不过是线性。
再来考察第三步，也就是从上一步所得到的 n/Q 个中位数中递归地去找到全局的中位数，也就是那个大写的 M。我们知道这一步是通过递归来完成的，但问题规模已经缩减到 n/Q，所以对应的时间复杂度也可以表示为 T(n/Q)。
再接下来的第四步是根据全局中位数将整个集合划分为三个子集，并分别计数。不难看出，只需一趟线性扫描，这项工作即可完成。因此，这一步所需要的时间累计也不过线性。
以下是最关键的第五步，这一步任务是递归的求解规模已经缩小的新问题。在这里我们宣称无论如何，新问题的规模都会得到有效的压缩，具体来说，它们的规模至多是原问题的75%。