KMP是一种处理字符串的方法,它的主要作用是寻找一个模板字符串p,在主字符串s中出现的位置。
在长字符串中找出一个短字符串的子串,这样的算法用暴力搜索当然是可以完成的,而且很容易考虑。但是,暴力的结果一定是极高的时间复杂度,如果长串的长度为n,短串的长度为m的话,那么暴力的时间复杂的应该是O(nm)的。
所以学会KMP还是蛮有用的,但是再学KMP之前,我们也得先用暴力的方法实现字符串的匹配,然后在对暴力算法理解优化的过程中,我们才可以更好的理解KMP算法。
1.暴力求解
就是很简单的双重循环遍历,一个一个字符的比较,若全部匹配成功则弹出,否则从长串的下一个字符处继续遍历。
const int N = 100010, M = 10010;
char p[N], s[M];
int n, m;
int main()
{
cin >> n >> p + 1 >> m >> s + 1;
for(int i = 1; i <= n; i ++)
{
bool flag = 1;
for(int j = 1; j <= n; j ++)
{
if(s[j] != p[i + j - 1])
{
flag = 0;
break;
}
}
}
}
就这样的暴力方式,不难看出,每次只往后移动一个字符的遍历效率是非常低的。
2.KMP算法
由上面的暴力算法,我们可以想到,如果在短字符中,出现于长字符串不匹配的字符前的子字符串,如果前缀和后缀有重复部分的话,我们是可以直接往后移动重复部分字符个数的字符的。
所以我们可以先预处理短字符串,用一个ne数组,来储存短字符串的第i个位置的相同前缀的位置,这样我们在匹配操作中就可以更加迅速的完成查找遍历。
const int N = 100010, M = 10010;
int n, m;
char p[N], s[M];
int ne[M];
int main()
{
cin >> n >> p >> m >> s;
for(int i = 2, j = 0; i <= m; i ++) // 预处理s,求出各点的ne
{
while(j && s[i] != s[j + 1]) j = ne[j];
if(s[i] = s[j + 1]) j ++;
ne[i] = j;
}
for(int i = 1, j = 0; i <= n; i ++) // 遍历
{
while(j && p[i] != s[j + 1]) j = ne[j];
if(p[i] == s[j + 1]) j ++;
if(j == m)
{
// j == m时,遍历出结果,这里执行想要的操作
j = ne[j]; // 为了继续遍历
}
}
}
这里再加一道题,帮助大家理解一蛤蛤
KMP字符串
给定一个模式串S,以及一个模板串P,所有字符串中只包含大小写英文字母以及阿拉伯数字。
模板串P在模式串S中多次作为子串出现。
求出模板串P在模式串S中所有出现的位置的起始下标。
输入格式
第一行输入整数N,表示字符串P的长度。
第二行输入字符串P。
第三行输入整数M,表示字符串S的长度。
第四行输入字符串S。
输出格式
共一行,输出所有出现位置的起始下标(下标从0开始计数),整数之间用空格隔开。
数据范围
1≤N≤1041≤N≤104
1≤M≤1051≤M≤105
输入样例:
3
aba
5
ababa
输出样例:
0 2
AC代码
#include<iostream>
using namespace std;
const int N = 100010, M = 10010;
int ne[M];
char p[N], s[M];
int n, m;
int main()
{
ios::sync_with_stdio(0);
cin.tie(0); cout.tie(0);
cin >> m >> s + 1 >> n >> p + 1;
for(int i = 2, j = 0; i <= m; i ++)
{
while(j && s[i] != s[j + 1]) j = ne[j];
if(s[i] == s[j + 1]) j ++;
ne[i] = j;
}
for(int i = 1, j = 0; i <= n; i ++)
{
while(j && p[i] != s[j + 1]) j = ne[j];
if(p[i] == s[j + 1]) j ++;
if(j == m)
{
cout << n - i << ' ';
j = ne[j];
}
}
return 0;
}
其实模板很简单,大概理解思路以后,多打两遍就可以记住模板了,没啥难的QwQ
好了,溜去玩耍了QwQ