后缀自动机学习笔记

zcxxn

已于 2024-07-11 14:54:58 修改

阅读量358

点赞数 1

分类专栏：算法文章标签：学习 python 算法

于 2022-12-26 16:59:45 首次发布

本文链接：https://blog.csdn.net/zcxxn/article/details/128441047

版权

算法专栏收录该内容

14 篇文章 1 订阅

订阅专栏

对于鱼来说，写过模板而不写博客的后果就是过了几个月跟没学过一毛一样。

~~所以要开始营业了~~

Part 1 一些基本定义

$e n d p os (t)$ ：字符串 $t$ 在 $s$ 中出现的所有结尾位置的集合
等价类：若 $e n d p os (x) = e n d p os (y)$ ，则 $x$ 和 $y$ 属于一个等价类。以下称对应同一等价类的所有子串为一个状态。
$l ink (x)$ ：根据 $e n d p os$ 的性质，状态 $x$ 对应的所有子串都是其中最长的子串 $t$ 的后缀，而 $t$ 的后缀不一定都属于状态 $x$ 。规定 $t$ 的最长的不属于 $x$ 的后缀为 $l ink (x)$ 。

那么 $S A M$ 就是一个以状态为点，状态之间的 $l ink$ 转移为边的 DAG，从起始状态出发到达每一个终止状态之间的转移构成 $s$ 的一个后缀。

Part 2 构建

$S A M$ 的构建是 $O (n)$ 的线性算法，通过逐个加入每个字符来实现，节点数最多只有 $2 n - 1$ 。

每个节点包含这样几个基本信息：

$l e n [x]$ ： $x$ 对应的最长字符串长度
$f a [x]$ ：即 $l ink (x)$
$c h [x] [i]$ ：记录 $x$ 的转移边上对应字符为 $i$ 的后继状态

考虑插入字符 $x$ 的过程，假设上一个插入的节点是 $p$ ，当前新建的节点是 $n p$ 。

先令 $l e n [n p] = l e n [p] + 1$ ，从 $p$ 往它的祖先跳，直到跳到某个节点有对应字符 $x$ 的转移边或者跳到初始状态，这一路都是没有 $x$ 的转移边的，直接令 $c h [p] [x] = n p$ 。

分情况讨论：

到初始状态还没有找到 $x$ 的转移边，直接令 $f a [n p] =$ 初始状态；
找到了 $x$ 的转移边，假设转移到了点 $q$ ，即 $c h [p] [x] = q$ ：
- $l e n [q] = l e n [p] + 1$ ，即字符串上点 $p$ 和点 $q$ 相邻，根据后缀状态的定义，令 $f a [n p] = q$ 即可；
- $l e n [q] > l e n [p] + 1$ ，即 $q$ 对应着比起点到 $p$ 更长的子串，这时候将 $q$ 割裂成两个节点 $q$ 和 $n q$ ，使 $l e n [n q] = l e n [p] + 1$ ， $n q$ 中保留 $q$ 的其它转移，让 $f a [q]$ 和 $f a [n p]$ 全为 $n q$ ，再修改 $p$ 到初始状态上的所有沿边 $x$ 转移会到达 $q$ 的后继状态为 $n q$ 。

然后我们就得到了一个可爱的 $S A M$ 。

$co d e$ ：

struct qwq{
	int len,ch[26],fa;
}st[N];
int tot=1,lst=1;
inline void insert(int x){
	int p=lst,np;
	np=lst=++tot,st[np].len=st[p].len+1,f[np]=1;
	for(;p&&!st[p].ch[x];p=st[p].fa) st[p].ch[x]=np;
	if(!p) return st[np].fa=1,void();
	int q=st[p].ch[x];
	if(st[q].len==st[p].len+1) return st[np].fa=q,void();
	else{
		int nq=++tot;st[nq]=st[q],st[nq].len=st[p].len+1;
		st[np].fa=st[q].fa=nq;
		for(;p&&st[p].ch[x]==q;p=st[p].fa) st[p].ch[x]=nq;
	}
}

Part 3 一些基础应用

求本质不同的子串个数

一种方法是利用 DAG 的性质求从起点出发的路径条数，更好写的是利用树的性质，每个节点对应的子串数量为 $l e n [x] - l e n [f a [x]]$ ，但要注意计入答案的应该是当前节点刚插入自动机时的 $f a$ ，且后续割裂的 $n q$ 不计入贡献。

求第k小子串

不同位置的相同子串算一个：

每个本质不同的子串唯一对应 DAG 上一条以 $1$ 为起点的路径，建出 $S A M$ 之后，自动机上除起始点外每个点权值为 $1$ ，反图上拓扑dp求出每个点出发能走的路径条数。

不同位置的相同子串算多个：

同样建出 $S A M$ ，后复制的点不算权值，在 $p a re n t$ 树上对每个点的子树进行求和，得到 $e n d p os$ 的大小作为点的权值，再拓扑dp。子树求和之后要先强制赋 $s i z [1] = 0$ ！

（或许）未完待续qwq

zcxxn

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
后缀自动机学习笔记

endpos(t)：字符串t在s中出现的所有结尾位置的集合等价类：若endpos(x)=endpos(y)，则x和y属于一个等价类。以下称对应同一等价类的所有子串为一个状态。link(x)：根据endpos。
复制链接

扫一扫