题目描述:两个字符串s1和s2,实现一个算法,如果s1含有子串s2,则返回s2在s1的开始位置,否则返回-1。
KMP算法解决了字符串匹配问题。时间复杂度O(N),其中N为s1的长度。KMP算法还有诸多应用。
首先是next数组,next[j] 表示当前字符s[j]前面,最长相同的前缀后缀长度。举个例子:
ababc,c前面为abab,最长相同前缀后缀长度是2,即ab。
再如:ababac,c前面为ababa,最长相同前缀后缀是aba,长度为3.
KMP算法是这么加速的,如果已经知道了next数组,一个例子:
s1 = aabbaac
s2 = aabbaad
匹配到最后一位(c和d)不成功,那么会把s2往后移动,此时i指向s1中的c,next['d']=2,所以应该把s2的首位对准:
(想一下next数组的原理,最长相同前缀后缀,因此要把相同部分对齐,也就是aa对齐;也就是把s2的初始位置和s1当前减去next[j]对齐,s2[0]与S1[i-next[j]]对齐)
i
aabbaac
aabbaad
j
i-next['d'],即 i-next[j],而那个相同前缀aa已经匹配过了,所以只需要从i开始比较,还是指向c,j指向了"b"(都向右走了next[j]);因此更新方法是j=next[j]。
整体思路是将s2往右推进,看哪个应该和s2比较。
规定next[0]=-1,next[1]=0;
int KMP(string s1, string s2){
if(s1.length()==0||s2.length()==0) return -1;
int i=0,j=0;
vector<int> next = getNext(s2);
while(i<s1.length() && j<s2.length()){
if(s1[i]==s2[j]){
i++;
j++;
}else{
if(next[j]==-1)
i++;
else j=next[j];
}
}
return j==s2.length() ? i-j :-1;
}
next数组更新,用到了前面的位置。
具体实现如下:
vector<int> getNext(string s){
if(s.length()==1) return {-1};
vector<int> next(s.length());
next[0]=-1,next[1]=0;
int pos=2,cn=0; //cn表示跳到的位置
while(pos<s.length()){
if(s[pos-1]==s[cn]) next[pos++]=++cn;
else if(cn>0) cn=next[cn]; //cn>0表示还可以往前跳
else next[pos++]=0;
}
return next;
}