后缀数组（SA）、后缀自动机（SAM）、广义 SAM 总结

best_brain

已于 2024-02-04 17:06:23 修改

阅读量903

点赞数 18

分类专栏：个人总结内容总结文章标签：算法 c++ 经验分享数据结构

于 2024-01-31 21:33:10 首次发布

本文链接：https://blog.csdn.net/x052xiao/article/details/135899567

版权

后缀数组（SA）

基础知识

$\qquad$ 后缀数组中涉及到的主要有三个重要的数组：1、 $s a$ 数组： $sa_i$ 表示排名为 $i$ 的后缀是哪一个后缀；2、 $r ank$ 数组： $rank_i$ 表示第 $i$ 个后缀的排名是几；3、 $h e i g h t$ 数组： $height_i$ 表示排名为 $i$ 的后缀与排名为 $i - 1$ 的后缀的最长公共前缀（ $L CP$ ）的长度。

$\qquad$ 求后缀数组一般用的是时间复杂度 $O(n\log n)$ ，但是常数极小的倍增法。整体思想是基于基数排序的思想。大体过程为：1、先以第一关键字（长度为 $1$ 的前缀）为基准排序；2、将原先的第一关键字作为现在的第二关键字，将长度为 $2$ 的前缀作为第一关键字排序；3、重复上述步骤，每次第一关键字的长度倍增，直到排序结束停止。

$\qquad$ 代码实现上有点小技巧，比如：第一次排序结束后，再进行第二次排序前要先求出所有后缀的第二关键字排名。在求第二关键字排名的时候，我们可以发现：第 $i$ 个后缀的第一关键字刚好是第 $i - 1$ 个后缀的第二关键字。在后面排序进行次数更多的时候也是同理：假设进行了 $k$ 次排序，那么此时第 $i$ 个后缀的第一关键字刚好是第 $i-2^k$ 个后缀的第二关键字。

$\qquad$ 对于第一关键字相同的后缀，我们要按照第二关键字来排序。但是怎么做到呢？这里有个小技巧就是倒序枚举第二关键字的排名。这样就可以在第一关键字相同的情况下第二关键字也有序。

$\qquad$ $C o d e :$

void Get_sa() {
   
	//初始按照第一关键字排序
	for(int i = 1; i <= n; i ++) c[X[i] = s[i]] ++;
	for(int i = 1; i <= m; i ++) c[i] += c[i - 1];
	for(int i = n; i; i --) sa[c[X[i]] --] = i;
	for(int k = 1; k <= n; k <<= 1) {
   
		int num = 0;
		for(int i = n - k + 1; i <= n; i ++) Y[++ num] = i;
		for(int i = 1; i <= n; i ++) {
   
			if(sa[i] > k) Y[++ num] = sa[i] - k;//求出按照第二关键字排序的结果
		}
		for(int i = 1; i <= m; i ++) c[i] = 0;
		for(int i = 1; i <= n; i ++) c[X[i]] ++;
		for(int i = 1; i <= m; i ++) c[i] += c[i - 1];
		for(int i = n; i; i --) sa[c[X[Y[i]]] --] = Y[i], Y[i] = 0;//先按第一关键字排，若相同则按照第二关键字排
		swap(X, Y);
		X[sa[1]] = 1, num = 1;
		for(int i = 2; i <= n; i ++) {
   
			X[sa[i]] = ((Y[sa[i]] == Y[sa[i - 1]] && Y[sa[i] + k] == Y[sa[i - 1] + k]) ? num : ++ num);
		}
		if(num == n) break;
		m = num;
	}
}

$\qquad$ 关于 $He i g h t$ 数组的求法，这里先引出几条性质：1、排名为 $i$ 的后缀与排名为 $j$ 的后缀（ $i < j$ ）的 $L CP$ 等于 $\min$ （ $L CP$ （排名为 $i$ 的后缀，排名为 $i + 1$ 的后缀）， $L CP$ （排名为 $i + 1$ 的后缀，排名为 $i + 2$ 的后缀）， $\dots$ ）。形式化地， $LCP(sa_i,sa_j)=\min(LCP(sa_i, sa_{i+1}), LCP(sa_{i+1}, sa_{i+2}),\dots)$ 。2、记 $h_i=LCP(i,sa_{rk_i-1})$