SAM 笔记

最新推荐文章于 2024-10-16 10:13:45 发布

Mongo_w

最新推荐文章于 2024-10-16 10:13:45 发布

阅读量220

点赞数

分类专栏：笔记文章标签： c++

本文链接：https://blog.csdn.net/weixin_45916935/article/details/122637364

版权

笔记专栏收录该内容

15 篇文章 0 订阅

订阅专栏

后缀自动机 $\text{SAM}$ .

仅为学习笔记，思路会跟博客后缀自动机（SAM）学习笔记 - zjp_shadow - 博客园比较类似 .

定义 $e n d p o s (t)$ 为子串 $t$ 在 $s$ 中出现过的所有结束位置的并 .

阅读下文时建议将状态看成是 $e n d p o s$ 的一个集合 .

有时也会用 $\text{parent树}$ 来代替 $\text{后缀树}$ .

Lemma

对于两个子串 $s 1$ 和 $s 2$ ，若 $|s1|\le |s2|$ ，则 $s 1$ 是 $s 2$ 的后缀当且仅当 $endpos(s1)\supseteq endpos(s2)$ ， $s 1$ 不是 $s 2$ 的后缀当且仅当 $endpos(s1)\cap endpos(s2)=\empty$ .

包含的前提保证 $s 2$ 出现的位置都会有 $s 1$ 出现，由结尾位置相同并且 $|s1|\le |s2|$ 可知 $s 1$ 是 $s 2$ 后缀 .

反之即 $endpos(s1)\cap endpos(s2) = \empty$ .

Characters

以 $\text{s}=\text{aabbabd}$ 为例 .

$\text{SAM}$ 中的一个状态包含的子串都具有相同的 $e n d p o s$ ，并且它们互为后缀 .

一个状态指的是从起点出发到这个点的所有路径组成的子串的并 .

例子中状态 $4$ 为 $\{\text{bb} \ , \ \text{aabb}\ , \ \text{abb}\}$ .

对于一个状态 $\text{st}$ , 记 $S(\text{st})$ 为状态 $4$ 的所有子串集合， $l(\text{st})$ 为其中最长的子串， $sh(\text{st})$ 为其中最短的子串 .

例子中状态 $4$ 中 $l(4)=\text{aabb}$ ， $sh(4)=\text{bb}$ .

对于任意 $\text{t}\in S(\text{st})$ ，都有 $endpos(t)\supseteq endpos(l(\text{st}))$ .
$S(\text{st})$ 包含的是 $l(\text{st})$ 的一系列后缀 .

后缀链接

考虑状态 $7$ ， $S(7)=\{\text{aabbab}\ , \ \text{abbab} \ , \ \text{bbab} \ , \ \text{bab}\}$ ，接下来的一个后缀 $a b$ 由于 $endpos(\text{ab})=\{3\ , \ 6\}$ ，不完全等于状态 $7$ ( $endpos(t\ |\ t\in S(7))=6$ ) ，因此 $\text{ab}$ 不在状态 $7$ 中，称这种情况叫做 “断掉” .

当 $l(\text{st})$ 的某个后缀在新的位置中出现时，就会 “断掉” ，这个后缀 $s$ 就会属于一个新的状态 .

上面的例子中 $\text{ab}$ 属于 $8$ ，接着考虑 $\text{b}$ 会发现 $endpos(\text{b}) = \{3\ , \ 4\ , \ 6\}$ ， $\text{b}$ 属于状态 $5$ ，在接下来 $endpos(\empty) = \{0\ , \ 1\ , \ 2\ , \ 3\ , \ 4\ , \ 5\ , \ 6\}$ ， $\empty$ 属于状态 $S$ .

顺着走下来可以发现一条状态路径 $7\rightarrow 8 \rightarrow 5 \rightarrow S $ ，这个序列的意义为 $l (7)$ 的后缀依次出现在状态 $7$ ， $8$ ， $5$ ， $S$ 中 .我们用后缀链接 $\text{SuffixLink}$ 来把它们连接起来，对应上图的虚线.

转移函数

记 $\text{Next}(s)$ 为以状态 $s$ 开始下一个可能会遇到的字符集，即 $\text{Next}(\text{st}) = \{s[i+1]\ | \ i\in endpos(\text{st})\}$ .

例子中 $\text{Next}(S)=\{s[0]\ , \ \ldots\ , \ s[6]\}=\{\text{a}\ , \ \text{b}\ , \ \text{d}\}$ .

$\text{Next}(8) = \{\text{b}\ , \ \text{d}\}$ .

很显然， $S(\text{st})$ 后面接上一个 $c\in \text{Next}(\text{st})$ 会变成同一个状态，记这个状态为 $\text{trans}(\text{st}\ ,\ c)$ .

构造

我们使用 增量法 来进行构造 .

记录一下数据：

数据	含义
$m a x l e n [s t]$	$s t$ 包含的最长子串长度
$m i n l e n [s t]$	$s t$ 包含的最短子串长度
$trans[st][1\ldots c]$	$s t$ 的转移函数，其中 $1\ldots c$ 为字符集
$l i n k [s t]$	$s t$ 的后缀链接

考虑现在新加入的字符 $s [i + 1]$ ，设 $s[1\ldots i]$ 的状态为 $u$ ，即 $s[1\ldots i]\in S(u)$ .

于是 $s[2\ldots i]\ , \ s[3\ldots i]\ , \ \ldots \ , \ s[i]\ , \ \empty$ 的所属状态即为沿着 $\text{SuffixLink}(u)$ 走的路径，记作 $\text{Suffix-path}(u\rightarrow S)$ .

显然对于 $s[1\ldots i]= l(u)\in S(u)$ ，其任意后缀 $t$ 要么在状态 $u$ 里，要么在 $\text{Suffix-path}(u\rightarrow S)$ 上 .

由于 $s[1\ldots i+1]$ 不在任一已知状态中，因此开一个新的状态 $z$ 来表示它 .

接下来考虑两种情况：

简单一点的，对于 $\text{Suffix-path}(u\rightarrow S)$ 中的任意状态 $v$ ，都有 $trans[v][s[i+1]]=\empty$ ，这时只需要令 $t r a n s [v] [s [i + 1]] = z$ ，并且 $l i n k [z] = S$ 即可 .

14813690859339.png (568×175) (hihocoder.com)

在这个例子中， $u = 2$ ， $z = 3$ ， $\text{Suffix-path}(u\rightarrow S)$ 是 $\color{orange}{\text{桔色状态}}$ 组成的路径 $2\rightarrow 1\rightarrow S$ ，并且这三个状态都没有 $\text{b}$ 的转移，因此只需添加 $\color{red}{\text{红色状态}}$ $t r a n s [2] [1] = 3$ ， $t r a n s [1] [1] = 3$ ， $t r a n s [S] [1] = 3$ 即可，当然还要 $l i n k [3] = S$ .

难搞一点的为 $\text{Suffix-path}(u\rightarrow S)$ 中有一个状态 $v$ ，使得 $trans[v][s[i+1]]\not= \empty$ .

14813699928939.png (757×629) (hihocoder.com)

上面的例子中已经构造出了 $\text{aabb}$ 的 $\text{SAM}$ ，现在要添加一个字符 $\text{a}$ 构造 $\text{aabba}$ 的 $\text{SAM}$ .

这时 $u = 4$ ， $z = 6$ ， $\text{Suffix-path}(u\rightarrow S)$ 为 $\color{orange}{\text{桔色状态}}$ 组成的路径 $4\rightarrow 5\rightarrow S$ ，对于 $4$ 和 $5$ 都有 $\empty$ ， $trans[5][0]=\empty$ ，因此直接添加 $\color{red}{\text{红色转移}}$ $t r a n s [4] [0] = t r a n s [5] [0] = 6$ 即可，但此时 $t r a n s [S] [0] = 1$ 已经存在了 .

不失一般性的，设 $\text{Suffix-path}(u\rightarrow S)$ 中遇到的第一个状态 $v$ 满足 $t r a n s [v] [s [i + 1]] = x$ ，接下来讨论 $x$ 包含的的子串情况 .

如果 $x$ 中包含的最长子串就是 $v$ 中最长子串接上 $s [i + 1]$ 后的子串，即 $m a x l e n [v] + 1 = m a x l e n [x]$ ，这种情况比较简单，则只需增加 $l i n k [z] = x$ 即可 .

例子中，只需让 $l i n k [6] = 1$ 即可.

如果 $x$ 中包含的最长子串不是 $v$ 中最长子串接上 $s [i + 1]$ 后的子串，即 $m a x l e n [v] + 1 < m a x l e n [x]$ ，这种情况是重点讨论对象 .

14813690856741.png (841×719) (hihocoder.com)

在 $\text{Suffix-path}(u\rightarrow S)$ 这条路径上，从 $u$ 开始有一部分连续的状态满足 $trans[\text{st}][\text{c}]=\empty$ ，则令 $trans[\text{st}][\text{c}]=z$ 即可 .

紧接着有一部分连续的状态满足 $trans[v\ldots w][\text{c}]=x$ ，并且 $l(v)+\text{c}\not= l(x)$ .

这时我们就从 $x$ 中拆出新的状态 $y$ ，并且把所有原本属于 $x$ 的满足长度小于 $m a x l e n [v] + 1$ 的子串分给 $y$ ，其余的子串留给 $x$ ，同时令 $trans[v\ldots w][\text{c}] = y$ ， $l i n k [y] = l i n k [x]$ ， $l i n k [x] = l i n k [z] = y$ .

也就是 $y$ 继承 $x$ 的后缀链接，并且 $x$ 和 $z$ 前面断开的 $S$ 就存在于 $y$ 中了 .

14813690864454.png (993×289) (hihocoder.com)

在这个例子中，先前已经够早了 $\text{aab}$ 的 $\text{SAM}$ ，接下来要构造 $\text{aabb}$ 的 $\text{SAM}$ .

由 $u = 3$ ， $z = 4$ ，处理 $S$ 时遇到 $t r a n s [S] [1] = 3$ ， $l(3)=\text{aab}$ ， $l(S)+\text{b}=\text{b}\not= l(3)$ ，两者不相等，意味着 $endpos(\text{aab})$ 已经不等于 $endpos(\text{b})$ 了，势必这两个子串不能属于同一个状态 $3$ .

这时我们就需要从状态 $3$ 中拆出一个状态 $5$ ，把 $\text{b}$ 以及其后缀分给 $5$ ，其余的子串留给 $3$ . 同时令 $t r a n s [S] [3] = 5$ ， $l i n k [5] = l i n k [3] = S$ ， $l i n k [4] = l i n k [3] = 5$ .

总时间复杂度 $O (∣ S ∣)$ ，具体证明见后缀自动机详解_DZYO的博客 .

由上述构造可知状态规模大致在 $O(2\times n -1)$ 范围， $t r a n s$ 大致在 $O(3\times n -4)$ 规模 .

Code

struct Suffix_automata
{
	int maxlen[N] , minlen[N] , link[N] , trans[N][26];
	int Siz , Las;
	Suffix_automata() {Siz = Las = 1;}
	inline void Extend(int id)
	{
		int cur = ++Siz , p;
		maxlen[cur] = maxlen[Las] + 1;
		for(p = Las ; p && !trans[p][id] ; p = link[p]) trans[p][id] = cur;
		if(!p) link[cur] = 1;
		else
		{
			int q = trans[p][id];
			if(maxlen[q] == maxlen[p] + 1) link[cur] = q;
			else
			{
				int y = ++Siz;
				maxlen[y] = maxlen[p] + 1;
				memcpy(trans[y] , trans[q] , sizeof trans[q]);
				link[y] = link[q];
				for(; p && trans[p][id] == q ; p = link[p]) trans[p][id] = y;
				link[cur] = link[q] = y; 
			}
		}
		Las = cur;
		ans += maxlen[cur] - maxlen[link[cur]];
	}
} T;

应用

本质不同子串个数

实际上就是求所有 $e n d p o s$ 的并，跳 $\text{Suffix-path}$ 即可 .

任意子串出现次数

跳相当于查对应状态 $e n d p o s$ 的大小，即 $∣ e n d p o s (x) ∣$ .

对于状态 $u$ ，沿着 $\text{Suffix-path}(u\rightarrow S)$ 走到的状态都是 $l (u)$ 的后缀，因此 $∣ e n d p o s (u) ∣$ 可以贡献给其路径上经过的每一个点，均摊下来等价于找 $\text{Suffix-path}(u\rightarrow S)$ 的起始端点 .

又由于 $m a x l e n [l i n k [u]] < m i n l e n [u]$ ，因此沿着 $l i n k$ 边走相当于走一个 $\text{DAG}$ ，再由出边唯一，因此这是一棵树 .

起始端点就相当于这棵树的叶子，求一下即可 .

两个串的最长公共子串

还是增量构造 .

考虑将模式串的 $\text{SAM}$ 建出来，设 $T [i]$ 表示以模式串第 $i$ 位为末尾的最长公共子串 .

以下面例子为例：

S:aabbabd
T:abbabb
1:a
2:ab
3:abb
4:abba
5:abbab
6:    ab

我们发现往后加一个字符相当于跳 $t r a n s$ .

记 $u, l$ 分别为当前 $T [i]$ 所在的状态以及它在原串中的长度 .

假设已知上一个 $T [i - 1]$ 的 $u^{'}$ ， $l^{'}$ ，现在推 $T [i]$ 的 $u$ 和 $l$ .

$t r a n s [u^{'}] [T [i]] = v$ ， $v\not=\empty$ ，那 $u = v$ ， $l = l^{'} + 1$ 即可.
$t r a n s [u^{'}] [T [i]] = v$ ， $v=\empty$ ，那就跳 $l i n k$ ，直到找到一个状态 $u u$ 使得 $trans[uu][T[i]]\not= \empty$ ，注意到此时有 $l (u u) + T [i] = S (T [i])$ ，因此 $u = t r a n s [u u] [T [i]]$ ， $l = m a x l e n [u u] + 1$ 即可 . 不存在就直接 $u = 0$ ， $l = 0$ .