浅谈后缀数组“从大到小合并 height 数组”的应用技巧

春玩其华，秋得其实

已于 2024-01-24 23:28:20 修改

阅读量406

点赞数 5

分类专栏： ACM 文章标签：算法数据结构 c++ suffix-tree

于 2024-01-22 23:59:37 首次发布

本文链接：https://blog.csdn.net/weixin_50011798/article/details/135311747

版权

ACM 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

摘要

后缀数组是处理字符串子串相关问题的一种有力的工具，而从大到小合并 height 数组则是其一个常见而重要的应用技巧。本文在简要介绍后缀数组及 height 数组的概念和求法的基础上，着重分析这一应用技巧，点明其适用情形、核心思想，并在其实现方法方面，指出在其特殊结构之下，在利用并查集进行合并这一似被广泛提及的方法之外，有同样简明而复杂度更优的实现方法。最后概括了应用该技巧时的一般性思考框架。本文也选取了笔者曾练习过的4道不同来源的有关题目作为例题进行分析。此些意在使后缀数组中从大到小合并 height 数组的应用技巧更完整全面地呈现出来。

一、后缀数组及 height 数组的概述和求法

1. 后缀数组

2. height数组

二、从大到小合并height数组的应用技巧

1. [Codeforces 873F] Forbidden Indices

【题目大意】

【分析】

2. [POJ 3415] Common Substrings

3. [NOI 2015] 品酒大会

4. [LOJ 6198] 谢特

四、总结

一、后缀数组及 height 数组的概述和求法

本文所谈基于后缀数组及该结构下的height数组，当然其不为重点。故先对后缀数组及height数组进行概述性讲解，包括其在算法竞赛中一般的求解方法。

1. 后缀数组

后缀数组（Suffix Array）针对某一字符串，考虑将其所有n个后缀中的按字典序排序。注意到某一下标能用来指代以该下标位置为首的后缀。对于长为n的字符串S[1…n]，定义：

sa[i] (1≤i≤n)：S的n个后缀中排名为i的后缀的起始下标
rank[i] (1≤i≤n)：后缀S[i, n]在S的n个后缀中的排名

        上图描述了串aabaaaab的sa与rank数组。显然，可将sa与rank数组视为互为“反函数”，即有sa[rank[i]] = i，rank[sa[i]] = i (1≤i≤n)。
        关于后缀数组的求解方法，对所有后缀朴素地排序，运用 $O(n\log n)$ 的排序方法，则复杂度是 $O(n^2\log n)$ 的，通常不可接受。尽管有 $O(n)$ 的求解方法，但在算法竞赛中往往使用以下的 $O(n\log n)$ 的倍增法求解。
        注意到两字符串（假设长度相同）可通过比较前一半与后一半来进行比较，从而想到对长度进行倍增。

如图，我们先做第1次排序，求出S中每个字符S[i]比较的排名，而后开始倍增，每次进行双关键字排序，第2次排序得到子串S[1, 2], S[2, 3], S[n-1, n], S[n, n]的比较排名，第k(k≥2)次双关键字排序得到子串S[1, 1+p], S[2, 2+p], … , S[i, min(i+p, n)], … , S[n]的排名，其中p=2k-1。如此倍增下去，直至2k-1≥n，此时已经得到所有后缀排序的结果。
如果使用 $O(n\log n)$ 的排序方法，则总时间复杂度 $O(n\log^2n)$ 。然而，注意到倍增过程中的“双关键字”为不超过n的“排名”，因此我们可用基数排序将每次排序复杂度优化至 $O(n)$ ，从而总复杂度为 $O(n\log n)$ 。此法在实现时还有一定的常数优化技巧，此从略。

2. height数组

单纯的后缀数组能解决一些特定的问题，结合上height数组则更能解决一些涉及字串（包括前、后缀）相关的字符串问题。

height 数组描述 sa 数组上相邻两后缀的最长公共前缀的长度。若记 LCP(i, j(2≤i, j≤n)为后缀S[i, n]和S[j, n]的最长公共前缀的长度，则 height[i] = LCP(sa[i], sa[i-1])(2≤i≤n)，令 height[1] = 0。
height 数组的求解基于如下性质：height[rank[i]] ≥ height[rank[i-1]] – 1，我们从小到大枚举 i，依次计算height[rank[1]], … , height[rank[n]]，维护当前的 height，暴力匹配 sa 上相邻两后缀的前缀。时间复杂度 $O(n)$ 。
height 数组有个非常重要的性质：LCP(i, j) = min(height[i+1], height[i+2], … , height[j])。这将后缀的 LCP 转化成了 height 数组上的 RMQ，这也是height数组有效、常用的重要原因。

二、从大到小合并height数组的应用技巧

1. 适用情形

        “从大到小合并height数组”的应用技巧，往往适用于给定一至两个字符串，基于公共子串，或可转化为公共子串相关的，且涉及附加信息的离线型全局统计（如求和、求最值）问题。典型情况下，题目所求常能写成下面的形式之一：
⦁   对F(i, j) = G(LCP(i, j), f(i, j)) (i<j) 做全局统计
⦁   对所有k，对所有满足LCP(i, j) = k 的i, j (i<j) 做F(i, j) 的全局统计
        若直接暴力枚举i, j，尽管通过预处理height数组的ST表，我们可以O(1) 计算LCP(i, j) 而后统计答案，但是显然暴力枚举的O(n2) 代价常不可取。

2. 核心思想

        由于LCP(i, j) = min(height[rank[i]+1], height[rank[i]+2], … , height[rank[j]]) = height[p] (不妨rank[i]<rank[j])，形象地看，height数组上一段的“height”被“卡在”中间最小的那个位置。因而，在上文所述的情形下，不难想到我们应该着眼于位置p，统计对应的 i, j 的答案。进一步地，p 位置可视为对应了height数组上的一段，而height[p]小的段会包含height[p]大的段。这启发我们维护所有的段，并根据height值“从大到小”枚举p，每次用height[p]及此时p位置“关联”的上下两段的信息统计答案，随后将两段“合并”为一段，并维护所需信息。
        具体地，称上面说的“段”为A，其对应上下边界L[A], R[A]，同时记有题目所需的附加信息I[A]。按如下步骤统计答案：
⦁   初始时，后缀数组上每个后缀自成一段，有A1, A2, … , An，L[Ai] = R[Ai] = i，及初始的I[Ai]。
⦁   将height数组降序排序而获得值降序（不增）的索引顺序。
⦁   按此顺序循环枚举p。p=1则跳过，否则有p处所关联，即当前下边界为p-1以及上边界为p的上、下两段Ap1与Ap2。首先，通过I[Ap1], I[Ap2] 以及height[p] 统计所有rank[i] 属于Ap1，rank[j] 属于Ap2的i, j的答案。随后合并Ap1, Ap2形成更长的一段Ap，计算其信息I[Ap]。
⦁   经 3)后即得题目所求。
        应当指出，这个过程对答案的统计是不重不漏的，这是因为后缀数组上一对i’, j’ (rank[i]=i' < j’=rank[j])的答案必然会在其对应的p处合并时被统计，且仅被统计这一次。

3. 实现方法及补充

关于该算法的具体实现，似乎并查集被更多地采用。但其实在其特殊结构之下有同样简明的纯线性方法。

使用并查集

不难想到，我们可以运用并查集来实现这一过程。并查集的一个集合就代表了当前的一段，同时这段的信息在该集合的代表元上。合并相当于union(find(p-1), find(p))。此部分时间复杂度 $O( \alpha(n) n )$ 。

直接维护段的上下边界

因为该结构下，本质上，段是纵向连续的，且合并处是段的上、下边界，因而并查集不是必需的。我们将信息记录在上下边界上，并直接维护：所有作为段的上边界的位置x对应的下边界r[x]、所有作为段的下边界的位置y对应的上边界l[y]，合并时更新信息并令l[r[p]] = l[p-1], r[l[p-1]] = r[p] 即可。此部分时间复杂度 $O(n)$ 。
所以，与将这一算法直接概括成“后缀数组结合并查集”相比，还是称“从大到小合并height数组”更佳。

4. 应用时的思考框架归纳

至此，不妨概括一下尝试运用该技巧时的思考框架：

在后缀数组上进行观察与思考。
着眼于某个p处，思考段上需要记录什么信息，以及如何通过height[p]，尤其是上下两段的信息计算题目所求。
思考信息如何合并。
若上述问题解决，则此法适用，从而套用上文的实现方法即可。

三、例题分析