后缀数组详解

后缀数组详解

文章目录

参考资料

link:https://www.cnblogs.com/shanchuan04/p/5324009.html
https://www.cnblogs.com/victorique/p/8480093.html
https://blog.csdn.net/a1035719430/article/details/80217267
https://www.cnblogs.com/jinkun113/p/4743694.html
https://www.cnblogs.com/zwfymqz/p/8413523.html

在这里插入图片描述
每次新的rank 就是第一关键字的排序

#include<iostream>
#include<cstdio>
#include<cstring>
#define rint register int
#define inv inline void
#define ini inline int
#define maxn 1000050
using namespace std;
char s[maxn];
int y[maxn],x[maxn],c[maxn],sa[maxn],rk[maxn],height[maxn],wt[30];
int n,m;
inv putout(int x) {
    if(!x) {
        putchar(48);
        return;
    }
    rint l=0;
    while(x) wt[++l]=x%10,x/=10;
    while(l) putchar(wt[l--]+48);
}
inv get_SA() {

	***用的是计数排序  可以更改为基数排序效率更高***
	
    for (rint i=1; i<=n; ++i) ++c[x[i]=s[i]];
	//c数组是桶
	//x[i]是第i个元素的第一关键字
    for (rint i=2; i<=m; ++i) c[i]+=c[i-1];
	//做c的前缀和,我们就可以得出每个关键字最多是在第几名
    for (rint i=n; i>=1; --i) sa[c[x[i]]--]=i;
    for (rint k=1; k<=n; k<<=1) {
        rint num=0;
        for (rint i=n-k+1; i<=n; ++i) y[++num]=i;
		//y[i]表示第二关键字排名为i的数,第一关键字的位置
		//第n-k+1到第n位是没有第二关键字的 所以排名在最前面
        for (rint i=1; i<=n; ++i) if (sa[i]>k) y[++num]=sa[i]-k;  // sa[i]>k 因为有K个是没有第二关键字的
		//排名为i的数 在数组中是否在第k位以后
		//如果满足(sa[i]>k) 那么它可以作为别人的第二关键字,就把它的第一关键字的位置添加进y就行了
		//所以i枚举的是第二关键字的排名,第二关键字靠前的先入队
		***用的是计数排序  可以更改为基数排序效率更高***
        for (rint i=1; i<=m; ++i) c[i]=0;
		//初始化c桶
        for (rint i=1; i<=n; ++i) ++c[x[i]];
		//因为上一次循环已经算出了这次的第一关键字 所以直接加就行了
        for (rint i=2; i<=m; ++i) c[i]+=c[i-1]; //第一关键字排名为1~i的数有多少个
        for (rint i=n; i>=1; --i) sa[c[x[y[i]]]--]=y[i],y[i]=0;
		//因为y的顺序是按照第二关键字的顺序来排的
		//第二关键字靠后的,在同一个第一关键字桶中排名越靠后  所以不能让i 从1-n 
		//基数排序
        swap(x,y);
		//这里不用想太多,因为要生成新的x时要用到旧的,就把旧的复制下来,没别的意思
        x[sa[1]]=1;
        num=1;
        for (rint i=2; i<=n; ++i)
            x[sa[i]]=(y[sa[i]]==y[sa[i-1]] && y[sa[i]+k]==y[sa[i-1]+k]) ? num : ++num;
        //判断两个合并后的前缀是否完全相同。相同在rank里排名就相同
        //这里由于y的数组开的比较大 并且数组的初始值为0 所以y[sa[i]]==y[sa[i-1]] && y[sa[i]+k]==y[sa[i-1]+k] 不用考虑越界问题  第n-k+1到第n位是没有第二关键字的也会因为 加k之后大于零均会相等 也可以比较出组合后的第一关键字和第二关键字 是否和前一个相等
		//因为sa[i]已经排好序了,所以可以按排名枚举,生成下一次的第一关键字
        if (num==n) break;
        m=num;  // 计数排序的最大值
		//这里就不用那个122了,因为都有新的编号了
    }
    for (rint i=1; i<=n; ++i) putout(sa[i]),putchar(' ');
}
inv get_height() {
    rint k=0;
    for (rint i=1; i<=n; ++i) rk[sa[i]]=i;
    for (rint i=1; i<=n; ++i) {
        if (rk[i]==1) continue;//第一名height为0
        if (k) --k;//h[i]>=h[i-1]-1;
        rint j=sa[rk[i]-1];
        while (j+k<=n && i+k<=n && s[i+k]==s[j+k]) ++k;
        height[rk[i]]=k;//h[i]=height[rk[i]];
    }
    putchar(10);
    for (rint i=1; i<=n; ++i) putout(height[i]),putchar(' ');
}
int main() {
    gets(s+1);
    n=strlen(s+1);
    m=122;
	//因为这个题不读入n和m所以要自己设
	//n表示原字符串长度,m表示字符个数,ascll('z')=122
	//我们第一次读入字符直接不用转化,按原来的ascll码来就可以了
	//因为转化数字和大小写字母还得分类讨论,怪麻烦的
    get_SA();
//get_height();
}

自己重新整理了一遍

#include<iostream>
#include<string>
#include<cstring>
using namespace std;
const int N = 1005, M = 256;
int sa[N], x[N], y[N], c[N];
void get_SA(string s) ;
int main() {
  string s;
  cin >> s;
  get_SA(s);
  for (int i = 0; i < s.length(); i++) {
    cout << s[i] << " ";
  }
  cout << endl;
  for (int i = 0; i < s.length(); i++) {
    cout << x[1+i] << " ";
  }
  cout << endl;
  for (int i = 0; i < s.length(); i++) {
    cout << sa[1+i] << " ";
  }
  cout << endl;
  
}
void get_SA(string s) {
  
  int n = s.length();
  int m = M; 
  //用的计数排序 
  for (int i = 1; i <= n; i++) c[x[i] = s[i-1]]++;  // 在计数排序装桶的同时 赋值x 数组  其实就是rank 数组 
  //c数组是桶
  //x[i]是第i个元素的第一关键字 相当于的rank 数组 
  for (int i = 1; i <= m; i++) c[i] += c[i-1];
  //做c的前缀和,我们就可以得出每个关键字最多是在第几名
  for (int i = n; i >= 1; i--) sa[c[x[i]]--] = i; // 由于这是第一次 所以 i既可以1-n 也有可以n-1 
//  for (int i = 1; i <= n; i++) sa[c[x[i]]--] = i;
  
  for (int k = 1; k <= n; k <<= 1) {
    int num = 1;
    for (int i = n-k+1; i <= n; i++) {
      y[num++] = i;
    }
    //y[i]表示第二关键字排名为i的数,第一关键字的位置
	//第n-k+1到第n位是没有第二关键字的 所以排名在最前面
    for (int i = 1; i <= n; i++) {
      if (sa[i] > k) {   // sa[i]>k 因为有K个是没有第二关键字的
        y[num++] = sa[i]-k; 
      }
    }
    //排名为i的数 在数组中是否在第k位以后
	//如果满足(sa[i]>k) 那么它可以作为别人的第二关键字,就把它的第一关键字的位置添加进y就行了
	//所以i枚举的是第二关键字的排名,第二关键字靠前的先入队
		
    for (int i = 1; i <= n; i++) c[i] = 0;
    //初始化c桶
    for (int i = 1; i <= n; i++) c[x[i]]++;
    //因为上一次循环已经算出了这次的第一关键字 所以直接加就行了
    for (int i = 1; i <= m; i++) c[i] += c[i-1];  // 这里的 i <= m 一定是小于等于 因为每一次的 m = num; 就说明了 c数组的最大有效值是m 
    //第一关键字排名为1~i的数有多少个
    for (int i = n; i >= 1; i--) sa[c[x[y[i]]]--] = y[i];
//    for (int i = 1; i <= n; i++) sa[c[x[y[i]]]--] = y[i];
    //因为y的顺序是按照第二关键字的顺序来排的
	//第二关键字靠后的,在同一个第一关键字桶中排名越靠后  所以不能让i 从1-n 
	//基数排序

    swap(x,y);
    //这里不用想太多,因为要生成新的x时要用到旧的,就把旧的复制下来,没别的意思
    num = 1;
    x[sa[1]] = 1;
    for (int i = 2; i <= n; i++) {
      x[sa[i]] = (y[sa[i]] == y[sa[i-1]] && y[sa[i]+k] == y[sa[i-1]+k])?num:++num;
    }
    //判断两个合并后的前缀是否完全相同。相同在rank里排名就相同
    //这里由于y的数组开的比较大 并且数组的初始值为0 所以y[sa[i]]==y[sa[i-1]] && y[sa[i]+k]==y[sa[i-1]+k] 不用考虑越界问题  第n-k+1到第n位是没有第二关键字的也会因为 加k之后大于零均会相等 也可以比较出组合后的第一关键字和第二关键字 是否和前一个相等
	//因为sa[i]已经排好序了,所以可以按排名枚举,生成下一次的第一关键字
    if (num == n) break; 
    m = num; // 计数排序的最大值
  }
}

hint:还没有加入最长公共前缀的代码

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值