后缀数组详解
参考资料
link:https://www.cnblogs.com/shanchuan04/p/5324009.html
https://www.cnblogs.com/victorique/p/8480093.html
https://blog.csdn.net/a1035719430/article/details/80217267
https://www.cnblogs.com/jinkun113/p/4743694.html
https://www.cnblogs.com/zwfymqz/p/8413523.html
每次新的rank 就是第一关键字的排序
#include<iostream>
#include<cstdio>
#include<cstring>
#define rint register int
#define inv inline void
#define ini inline int
#define maxn 1000050
using namespace std;
char s[maxn];
int y[maxn],x[maxn],c[maxn],sa[maxn],rk[maxn],height[maxn],wt[30];
int n,m;
inv putout(int x) {
if(!x) {
putchar(48);
return;
}
rint l=0;
while(x) wt[++l]=x%10,x/=10;
while(l) putchar(wt[l--]+48);
}
inv get_SA() {
***用的是计数排序 可以更改为基数排序效率更高***
for (rint i=1; i<=n; ++i) ++c[x[i]=s[i]];
//c数组是桶
//x[i]是第i个元素的第一关键字
for (rint i=2; i<=m; ++i) c[i]+=c[i-1];
//做c的前缀和,我们就可以得出每个关键字最多是在第几名
for (rint i=n; i>=1; --i) sa[c[x[i]]--]=i;
for (rint k=1; k<=n; k<<=1) {
rint num=0;
for (rint i=n-k+1; i<=n; ++i) y[++num]=i;
//y[i]表示第二关键字排名为i的数,第一关键字的位置
//第n-k+1到第n位是没有第二关键字的 所以排名在最前面
for (rint i=1; i<=n; ++i) if (sa[i]>k) y[++num]=sa[i]-k; // sa[i]>k 因为有K个是没有第二关键字的
//排名为i的数 在数组中是否在第k位以后
//如果满足(sa[i]>k) 那么它可以作为别人的第二关键字,就把它的第一关键字的位置添加进y就行了
//所以i枚举的是第二关键字的排名,第二关键字靠前的先入队
***用的是计数排序 可以更改为基数排序效率更高***
for (rint i=1; i<=m; ++i) c[i]=0;
//初始化c桶
for (rint i=1; i<=n; ++i) ++c[x[i]];
//因为上一次循环已经算出了这次的第一关键字 所以直接加就行了
for (rint i=2; i<=m; ++i) c[i]+=c[i-1]; //第一关键字排名为1~i的数有多少个
for (rint i=n; i>=1; --i) sa[c[x[y[i]]]--]=y[i],y[i]=0;
//因为y的顺序是按照第二关键字的顺序来排的
//第二关键字靠后的,在同一个第一关键字桶中排名越靠后 所以不能让i 从1-n
//基数排序
swap(x,y);
//这里不用想太多,因为要生成新的x时要用到旧的,就把旧的复制下来,没别的意思
x[sa[1]]=1;
num=1;
for (rint i=2; i<=n; ++i)
x[sa[i]]=(y[sa[i]]==y[sa[i-1]] && y[sa[i]+k]==y[sa[i-1]+k]) ? num : ++num;
//判断两个合并后的前缀是否完全相同。相同在rank里排名就相同
//这里由于y的数组开的比较大 并且数组的初始值为0 所以y[sa[i]]==y[sa[i-1]] && y[sa[i]+k]==y[sa[i-1]+k] 不用考虑越界问题 第n-k+1到第n位是没有第二关键字的也会因为 加k之后大于零均会相等 也可以比较出组合后的第一关键字和第二关键字 是否和前一个相等
//因为sa[i]已经排好序了,所以可以按排名枚举,生成下一次的第一关键字
if (num==n) break;
m=num; // 计数排序的最大值
//这里就不用那个122了,因为都有新的编号了
}
for (rint i=1; i<=n; ++i) putout(sa[i]),putchar(' ');
}
inv get_height() {
rint k=0;
for (rint i=1; i<=n; ++i) rk[sa[i]]=i;
for (rint i=1; i<=n; ++i) {
if (rk[i]==1) continue;//第一名height为0
if (k) --k;//h[i]>=h[i-1]-1;
rint j=sa[rk[i]-1];
while (j+k<=n && i+k<=n && s[i+k]==s[j+k]) ++k;
height[rk[i]]=k;//h[i]=height[rk[i]];
}
putchar(10);
for (rint i=1; i<=n; ++i) putout(height[i]),putchar(' ');
}
int main() {
gets(s+1);
n=strlen(s+1);
m=122;
//因为这个题不读入n和m所以要自己设
//n表示原字符串长度,m表示字符个数,ascll('z')=122
//我们第一次读入字符直接不用转化,按原来的ascll码来就可以了
//因为转化数字和大小写字母还得分类讨论,怪麻烦的
get_SA();
//get_height();
}
自己重新整理了一遍
#include<iostream>
#include<string>
#include<cstring>
using namespace std;
const int N = 1005, M = 256;
int sa[N], x[N], y[N], c[N];
void get_SA(string s) ;
int main() {
string s;
cin >> s;
get_SA(s);
for (int i = 0; i < s.length(); i++) {
cout << s[i] << " ";
}
cout << endl;
for (int i = 0; i < s.length(); i++) {
cout << x[1+i] << " ";
}
cout << endl;
for (int i = 0; i < s.length(); i++) {
cout << sa[1+i] << " ";
}
cout << endl;
}
void get_SA(string s) {
int n = s.length();
int m = M;
//用的计数排序
for (int i = 1; i <= n; i++) c[x[i] = s[i-1]]++; // 在计数排序装桶的同时 赋值x 数组 其实就是rank 数组
//c数组是桶
//x[i]是第i个元素的第一关键字 相当于的rank 数组
for (int i = 1; i <= m; i++) c[i] += c[i-1];
//做c的前缀和,我们就可以得出每个关键字最多是在第几名
for (int i = n; i >= 1; i--) sa[c[x[i]]--] = i; // 由于这是第一次 所以 i既可以1-n 也有可以n-1
// for (int i = 1; i <= n; i++) sa[c[x[i]]--] = i;
for (int k = 1; k <= n; k <<= 1) {
int num = 1;
for (int i = n-k+1; i <= n; i++) {
y[num++] = i;
}
//y[i]表示第二关键字排名为i的数,第一关键字的位置
//第n-k+1到第n位是没有第二关键字的 所以排名在最前面
for (int i = 1; i <= n; i++) {
if (sa[i] > k) { // sa[i]>k 因为有K个是没有第二关键字的
y[num++] = sa[i]-k;
}
}
//排名为i的数 在数组中是否在第k位以后
//如果满足(sa[i]>k) 那么它可以作为别人的第二关键字,就把它的第一关键字的位置添加进y就行了
//所以i枚举的是第二关键字的排名,第二关键字靠前的先入队
for (int i = 1; i <= n; i++) c[i] = 0;
//初始化c桶
for (int i = 1; i <= n; i++) c[x[i]]++;
//因为上一次循环已经算出了这次的第一关键字 所以直接加就行了
for (int i = 1; i <= m; i++) c[i] += c[i-1]; // 这里的 i <= m 一定是小于等于 因为每一次的 m = num; 就说明了 c数组的最大有效值是m
//第一关键字排名为1~i的数有多少个
for (int i = n; i >= 1; i--) sa[c[x[y[i]]]--] = y[i];
// for (int i = 1; i <= n; i++) sa[c[x[y[i]]]--] = y[i];
//因为y的顺序是按照第二关键字的顺序来排的
//第二关键字靠后的,在同一个第一关键字桶中排名越靠后 所以不能让i 从1-n
//基数排序
swap(x,y);
//这里不用想太多,因为要生成新的x时要用到旧的,就把旧的复制下来,没别的意思
num = 1;
x[sa[1]] = 1;
for (int i = 2; i <= n; i++) {
x[sa[i]] = (y[sa[i]] == y[sa[i-1]] && y[sa[i]+k] == y[sa[i-1]+k])?num:++num;
}
//判断两个合并后的前缀是否完全相同。相同在rank里排名就相同
//这里由于y的数组开的比较大 并且数组的初始值为0 所以y[sa[i]]==y[sa[i-1]] && y[sa[i]+k]==y[sa[i-1]+k] 不用考虑越界问题 第n-k+1到第n位是没有第二关键字的也会因为 加k之后大于零均会相等 也可以比较出组合后的第一关键字和第二关键字 是否和前一个相等
//因为sa[i]已经排好序了,所以可以按排名枚举,生成下一次的第一关键字
if (num == n) break;
m = num; // 计数排序的最大值
}
}
hint:还没有加入最长公共前缀的代码