1.题目
给定一个模式串S,以及一个模板串P,所有字符串中只包含大小写英文字母以及阿拉伯数字。
模板串P在模式串S中多次作为子串出现。
求出模板串P在模式串S中所有出现的位置的起始下标。
输入格式
第一行输入整数N,表示字符串P的长度。
第二行输入字符串P。
第三行输入整数M,表示字符串S的长度。
第四行输入字符串S。
输出格式
共一行,输出所有出现位置的起始下标(下标从0开始计数),整数之间用空格隔开。
数据范围
1≤N≤105
1≤M≤106
输入样例:
3
aba
5
ababa
输出样例:
0 2
2.提示
在这里解释一下下标从1开始的好处,首先KMP算法的核心就是要理解next数组的含义。
当下标从0开始时,next[i]表示子串s[0,i]的最长相等前后缀的前缀最后一位的下标,如果我们要求出这个子串的最长相等前后缀的长度时,需要next[i]+1;
当下标从1开始时,next[i]依然表示子串s[1,i]的最长相等前后缀的前缀最后一位的下标,而且next[i]就是这个子串的最长相等前后缀的长度(这也是next[i]数组的另一层含义),不需要我们再去人为加1了。
从另一个角度来讲,下标从0开始时,next[i]=-1,表示我们找不到相等的前后缀。如果下标从1开始,next[i]=0,表示最长相等前后缀的长度为0,也就是说没有相等的前后缀,显然后者更符合我们的一般思路。
所以推荐大家最好从下标为1开始输入。
3.代码
#include<iostream>
#include<cstdio>
using namespace std;
const int N= 1e5 + 10,M=1e6+10;
int n, m;
int ne[N]; //next数组,next[i]表示子串s[1,2,,,,,,i-1,i]的最长相等前后缀的前缀最后一位下标
//或者说是子串的最长相等前后缀的长度,因为我们是从下标1开始的,这也体现出了从1开始的好处
char s[M]; //模式串
char p[N]; //模板串
int main()
{
cin >> n >> p + 1 >> m >> s + 1; //下标从1开始
for (int i = 2, j = 0; i <= n; i++) //求next数组 next[1]=0,因此从2开始
{
while (j&&p[i] != p[j + 1]) j = ne[j]; //p[i] != p[j + 1]匹配失败,j回退
if (p[i] == p[j + 1]) j++; //匹配成功,ne[i]=j+1,先令j指向这个位置
ne[i] = j;
}
for(int i=1,j=0;i<=m;i++) //由于s[i]和p[j+1]匹配,因此j要往前错一位从0开始
{
while (j&&s[i] != p[j + 1]) j = ne[j];//此时next数组的含义就是当j+1位失配时,j应该退回的位置
if (s[i] == p[j + 1]) j++;//匹配成功,j++指向下一个位置
if (j == n) //匹配到模板串尽头,输出位置
{
printf("%d ", i - n);
j = ne[j]; //让j回退到next[j]继续下一次匹配
}
}
return 0;
}