后缀数组
建出后缀数组,按照排名遍历每一个后缀,对于每一个后缀sa[i],从sa[i]+height[i]枚举每一个子串,即可按字典序枚举所有子串(证明见下)。暴力跳height即可出答案。可以证明每一个子串至多被用上一次,因此时间复杂度O(n^2)。
闲着无聊,证明一下为什么这样能够按字典序遍历所有本质不同子串。
证明这样能够遍历所有子串。首先,每一个子串一定是一个后缀的前缀,所以一定会被遍历到。其次,遍历到的显然是一个子串。
证明遍历到的子串本质不同。由于从sa[i]+height[i],那么枚举到的每一个子串一定都没有在之前出现过,否则height[i]值会更大。
证明遍历到的子串是字典序递增。假设存在一个字典序大的子串i比一个字典序小的j先遍历到。那i一定在某一位大于j而之前的位相等。那后缀i就应该排在j后面,矛盾。
#include<cstdio>
#include<algorithm>
#define N 6005
using namespace std;
namespace runzhe2000
{
int n, height[N], sa[N], rank[N], t1[N], t2[N], sum[N];
char s[N];
void SA_build()
{
int m = 2, *x = t1, *y = t2;
for(int i = 1; i <= n; i++) sum[x[i] = (s[i] - '0' + 1)]++;
for(int i = 1; i <= m; i++) sum[i] += sum[i-1];
for(int i = n; i >= 1; i--) sa[sum[x[i]]--] = i;
for(int k = 1; k <= n; k <<= 1)
{
int q = 0;
for(int i = n-k+1; i <= n; i++) y[++q] = i;
for(int i = 1; i <= n; i++) if(sa[i]-k >= 1) y[++q] = sa[i]-k;
for(int i = 1; i <= m; i++) sum[i] = 0;
for(int i = 1; i <= n; i++) sum[x[i]]++;
for(int i = 1; i <= m; i++) sum[i] += sum[i-1];
for(int i = n; i >= 1; i--) sa[sum[x[y[i]]]--] = y[i];
swap(x, y);
for(int i = 1; i <= n; i++) x[sa[i]] = y[sa[i]] == y[sa[i-1]] && y[sa[i]+k] == y[sa[i-1]+k] ? x[sa[i-1]] : x[sa[i-1]]+1;
m = x[sa[n]];
}
for(int i = 1; i <= n; i++) rank[sa[i]] = i;
for(int i = 1, k = 0; i <= n; height[rank[i++]] = k, k?k--:0)
for(; s[i+k] == s[sa[rank[i]-1]+k]; k++);
}
void main()
{
scanf("%d%s",&n,s+1);
SA_build();
for(int i = 1; i <= n; i++)
{
for(int j = sa[i]+height[i]; j <= n; j++)
{
int k = i;
for(; height[k+1] >= j-sa[i]+1; ++k);
if(k != i)printf("%d\n",k-i+1);
}
}
}
}
int main()
{
runzhe2000::main();
}