KMP算法即 朴素模式匹配算法的优化。
由D.E.Knuth,J.H.Morris和V.R.Pratt提出,因此称为KMP算法。
朴素模式匹配算法的缺点:当某些子串与模式串能部分匹配时,主串的扫描指针i经常回溯,导致时间开销增加
KMP
改进思路:主串指针不回溯,只有模式串指针回溯。
解决主串回溯问题
举例:
- 如果j = k时才发现匹配失败,说明1~k-1都匹配成功
- 若j = 6时发生不匹配,则让j回到1
主串指针不回溯:也可以理解为模式串往右移动了5步
- 如果这个字符是‘g’,应该让i++,j++
- 若这个字符不是‘g’,应该让i后裔,检查下一个字符是否是g
若j = 1时发生不匹配,则应让i++,而j依然是1
- 当j = 5时发生不匹配,则应让j回到2
方法
找出一个和模式串匹配的next数组int next[7]
若当前两个字符串匹配,则i++,j++
若j = 1时发生不匹配,则应让i++,j仍然为1
若j = 2时发生不匹配,则应让j回到1
若j = 3时发生不匹配,则应让j回到1
若j = 4时发生不匹配,则应让j回到1
若j = 5时发生不匹配,则应让j回到2
若j = 6时发生不匹配,则应让j回到1
求模式串next数组方法
next数组:点那个模式串的第j个字符匹配失败时,令模式串跳到next[j]再继续匹配。
串的前缀:包含第一个字符,且不包含最后一个字符的子串;
串的后缀:包含最后一个字符,且不包含第一个字符的子串
当第j个字符匹配失败,由前1~j-1个字符组成的串记为S,则
next[j] = S 的最长相等前后缀长度+1;
特别的,next[1] = 0
例子:
求next数组代码
void get_next(SString T, int next[]) {
int i = 1,j = 0;
next[1] = 0;
while(i < T.length) {
if(j == 0|| T.ch[i] == T.ch[j]) {
++i;
++j;
//若pi = pj,则next[j+1] = next[j]+1
next[i] = j;
}
else
//否则令j = next[j],循环继续
j = next[j]
}
}
算法代码
int Index_KMP(SString S, SString T, int next[]) {
int i = 1, j = 1;
while(i <= S.length && j <=T.length) {
if(j == 0 || S.ch[i] == T.ch[j]) {
++i;
++j; //继续比较后续字符
}
else
j = next[j]; //模式串向右移动
}
if(j > T.length)
return i - T.length; //匹配成功
else
return 0;
}
时间复杂度
一部分来自于求next数组——O(m)
一部分来自于KMP算法中的while循环——O(n)
总的时间复杂度:O(m+n)
KMP算法优化(nextval数组)
KMP算法存在的问题
多进行了一次无意义的对比
nextval求法代码
nextval数组的求法:
先算出next数组
先令nextval[1] = 0
for(int j = 2; j <= T.length; j++) {
if(T.ch[next[j] == T.ch[j])
nextval[j] = nextval[next[j]];
else
nextval[j] = next[j];
}