问题描述:给出两个字符串text和pattern,需要判断字符串pattern是否是字符串text的子串。
1 next数组示意图
- next[i]表示使子串s[0...i]的前缀s[0...k]等于后缀s[i-k....i]的最大的k(注意前缀和后缀可以部分重叠但是不能是 s[0....i] 本身)
- next[i]就是所求最长相等前后缀中、前缀最后一位的下标。
2 分析KMP算法的时间复杂度
3 例题1——KMP
#include <iostream>
using namespace std;
const int MAXM = 10001;
const int MAXN = 1000001;
int nextTable[MAXM];
int pattern[MAXM];
int text[MAXN];
void GetNextTable(int m) { // 创建next表
int j=0;
nextTable[j]=-1;
int i = nextTable[j];
while(j<m) {
if(i==-1 || pattern[j]==pattern[i]) {
i++;
j++;
nextTable[j]=i;
} else {
i=nextTable[i];
}
}
}
int KMP(int n,int m) {
GetNextTable(m);
int i=0,j=0;
while(i<n&&j<m) {
if(j==-1||text[i]==pattern[j]) { // 当前字符匹配成功
i++;
j++;
} else {
j=nextTable[j]; // 当前字符匹配失败
}
}
if(j==m)
return i-j+1; // 模式串匹配成功
else
return -1; // 模式串匹配失败
}
int main() {
int caseNumber;
cin>>caseNumber;
while(caseNumber--){
int n,m;
cin>>n>>m;
for(int i=0;i<n;i++)
cin>>text[i];
for(int j=0;j<m;j++)
cin>>pattern[j];
cout<<KMP(n,m)<<endl;
}
return 0;
}
4 例题2——KMP
poj上用C++测试不会超时,而用g++测试,会超时。
#include <iostream>
#include <cstdio>
#include <string>
using namespace std;
const int MAXM = 10005;
int nextTable[MAXM];
// 创建 next 表
// next 数组定义:当主串与模式串的某一位字符不匹配时,模式串要回退的位置
void GetNextTable(string pattern){
int m = pattern.size();
int j = 0;
nextTable[j]=-1;
int i = nextTable[j];
while(j<m){
if( i==-1 || pattern[j]==pattern[i]){
i++;
j++;
nextTable[j]=i;
}else{
i = nextTable[i];
}
}
return ;
}
int KMP(string text, string pattern){
GetNextTable(pattern);
int n = text.size();
int m = pattern.size();
int i = 0;
int j = 0;
int number = 0; // 记录匹配次数
while(i<n){
if(j==-1 || text[i]==pattern[j]){ // 当前字符匹配成功
i++;
j++;
}else{
j = nextTable[j]; // 当前字符匹配失败
}
if(j==m){ // 模式串匹配成功
number++;
j = nextTable[j];
}
}
return number;
}
int main()
{
int caseNumber;
scanf("%d",&caseNumber);
while(caseNumber--){
string pattern, text;
cin>>pattern>>text;
printf("%d\n",KMP(text, pattern));
}
return 0;
}
5 例题3——regex库
#include <iostream>
#include <string>
#include <regex>
using namespace std;
string st[1001];
int main () {
int n;
while(cin>>n) {
getchar();
for (int i=1; i<=n; ++i)
getline(cin, st[i]);
getline(cin, st[0]);
regex r(st[0], regex::icase); // regex::icase 不区分大小写
for (int i=1; i<=n; ++i)
if (regex_match(st[i], r)) // 这是完全匹配,部分匹配用regex_search
cout << i << ' ' << st[i] << endl;
}
return 0;
}
6 进阶——优化next数组
前面求得的next数组存在的不足:
优化后的next数组被称为nextval数组,它丢失了next数组的最长相等前后缀的含义,却让失配时的处理达到了最优,因此nextval[i]的含义应当理解为当模式串pattern的i+1位发生失配时,i应当回退到的最佳位置。
7 进阶——从有限状态自动机的角度看待KMP算法