在上一篇文章中讲了朴素算法(点击打开链接),可以看出在大多数情况下,这种比较显得很慢,要做很多次不必要的比较。
因此有了KMP算法,可以减少一些不必要的比较,还是上篇文章的栗子,分析一下:
KMP正是这种思想:主串下标不需要回退,需要变化的就是子串的下标。子串下标只需要回退到合适的位置即可。
需要明白两个概念:前缀和后缀
假设字符串为"hello" 前缀有:h , he , hel , hell 后缀有:ello , llo , lo ,o |
再看下面栗子,分析子串下标如何回退。
在回退过程中,主串下标一直往前走,改变的只是子串的下标,也就是说,子串下标的变化与主串没有关系,关键在于子串本身前缀和后缀所包含相同的字符。
有了上面的想法,只需事先将子串下标的变化定义为一个next数组即可,这样每次当子串下标后退时,只需要查找next数组就可以知道要回退到哪里咯。
上面的例子我们得到next数组如下:
代码:
#include<iostream>
#include<string>
using namespace std;
void GetNext(string T,int* next)//得到next数组
{
int i=0;
int j=-1;
int Tlen=T.length();
next[0]=-1;
while(i<Tlen)
{
if(j==-1 || T[j]==T[i])
{
++i;
++j;
next[i]=j;
}
else
j=next[j];/*改进:else{if(T[j]==T[i]){next[i]=next[j];}j=next[j];}*/
}
}
int KMP(string M,string T,int pos)
{
int index=-1;
int i=pos;
int j=0;
int Mlen=M.length();
int Tlen=T.length();
if(pos<0 || pos>=Mlen)
return index;
int next[100];
GetNext(T,next);
while(i<Mlen && j<Tlen)
{
if(j==-1 || M[i]==T[j])
{
++i;
++j;
}
else
j=next[j];
}
if(j>=Tlen)
index=i-Tlen;
return index;
}
int main()
{
string M;
getline(cin,M);
string T;
getline(cin,T);
int index=KMP(M,T,1);
cout<<index<<endl;
return 0;
}
注:说明一下代码中标示的改进思想:
也称KMP的改进。
主要源于对next数组的求解过程中,每一位下标的值next[i]都依赖于上一个下标匹配的情况
假设有一个数组
计算出其next数组为:
可以看出,假设在T[3]处失配,查看next[3],知道子串下标需要回退到下标为2的位置。T[2]与T[3]都为'a',所以一定在T[2]处也失配,继续回退,回退到next[2]=1处。T[1]与T[3]都为'a',一定在T[1]处也失配,继续回退,回退到next[1]=0处。可以看出,这种回退是没有必要的,所以进行修改,当此时子串失配元素与要跳转的位置元素相同时,直接将next数组更改为最终要跳到的地方。
举两个例子加深一下印象:
分析:时间复杂度为O(m+n)