KMP介绍
KMP是一种在任何情况下都能达到O(n+m)复杂度的算法。简单说,它通过分析P的特征对P进行预处理,从而在于S匹配时能都跳过一些字符串,从而达到快速匹配。
在使用KMP算法时,指向S的i指针不会回溯,而是一直走到最后,从而减少了匹配的次数。
KMP核心思想——Next[]数组(shift数组或者fail数组),当出现失配后(匹配不上),进行下一次匹配时,用Next[]指出j回溯的位置。
next数组
1、寻找前缀后缀最长公共元素长度
寻找模式串P中长度最大且相等的前缀和后缀
比如对于字符串aba来说,它有长度为1的相同前缀后缀a;而对于字符串abab来说,它有长度为2的相同前缀后缀ab(相同前缀后缀的长度为k + 1,k + 1 = 2)。
2、求next数组
next 数组考虑的是除当前字符外的最长相同前缀后缀,所以通过第①步骤求得各个前缀后缀的公共元素的最大长度后,只要稍作变形即可:将第1步骤中求得的值整体右移一位,然后初值赋为-1。
匹配实例
S[ ]=”abcabcabcd”,P[ ]=”abcd”。I指向S[i],j指向P[j],0<=i<n,0<=j<m。
(1) 第一轮匹配后,i=3、j=3的位置失配。
(2) 第二轮匹配,i=3不变,j回到j=0的位置重新开始
(3) 直到匹配到最后一位
模板例题
#include<iostream>
#include<cstring>
using namespace std;
int next1[1000010],la,lb,num;
char a[1000010],b[1000010];
void get_next()//预计算next数组,用于失配时得到j回溯的位置
{
int i,j,k;
i=0;
j=next1[0]=-1;
while(i<la)
{
if(j==-1||a[i]==a[j])//如果j = -1,或者当前字符匹配成功
{
i++,j++;//进行下一位
next1[i]=j;//给naxt数组赋值
}
else
j=next1[j];//失配时,用next数组找回溯的位置
}
return;
}
void KMP()//在S中找P
{
int i,j,k;
i=j=0;
while(i<lb)//开始匹配a和b的字符
{
if(j==-1||b[i]==a[j])//如果j = -1,或者当前字符匹配成功
{
i++,j++;//进行下一位
}
else j=next1[j];//失配时,用next数组找回溯的位置
if(j>=la) num++,j=next1[j];//计算b中有几个a
}
return;
}
int main()
{
int i,j,n,t;
scanf("%d",&t);
while(t--)
{
scanf("%s",&a);
scanf("%s",&b);
memset(next1,0,sizeof(next1));//清空数组next
la=strlen(a),lb=strlen(b);//计算a,b字符串的长度
num=0;
get_next();//预计算next数组
KMP();//KMP匹配
printf("%d\n",num);
}
return 0;
}
习题
hdu 2087 / 1711 / 2222 / 2896 / 3065 / 3336
hdu 2594“Simpsons’ Hidden Talents”,拓展KMP算法,求原串S的每一个后缀子串与模式串P的最长公共前缀。