KMP匹配算法
思路
将待查询字符串 searchString 使用一串 next 数组表表示,当与源字符串 sourceString 匹配时,sourceString 不需要移动,只需要将 searchString 移动n位,然后再继续匹配,直到结束。
next 数组
next 数组的值就是代表当前字符之前的字符串中,有多大长度的相同前缀后缀。例如如果 next[j]=k,代表 j 之前的字符串中有最大长度为 k 的相同前缀后缀。
至于为什么要求next 数组,等我们知道了 next 数组是怎么求的之后,再告诉大家
那么如何来求 next 数组呢?
如图:
长度为前1个字符的子串a
,最长相同前后缀的长度为0。(注意字符串的前缀是指不包含最后一个字符的所有以第一个字符开头的连续子串;后缀是指不包含第一个字符的所有以最后一个字符结尾的连续子串。)
长度为前2个字符的子串aa
,最长相同前后缀的长度为1。
长度为前3个字符的子串aab
,最长相同前后缀的长度为0。
以此类推:长度为前4个字符的子串aaba
,最长相同前后缀的长度为1。长度为前5个字符的子串aabaa
,最长相同前后缀的长度为2。长度为前6个字符的子串aabaaf
,最长相同前后缀的长度为0。
那么把求得的最长相同前后缀的长度就是对应前缀表的元素,如图:
可以看出模式串与前缀表对应位置的数字表示的就是:下标i之前(包括i)的字符串中,有多大长度的相同前缀后缀。
理解原理后,我们来用代码实现一下
首先我们定义 getNext 函数
void getNext(char *p,int *next)
-
初始化
对相应的变量初始化
int j=0;
next[0]=0; //第一个字符没有前后缀
-
前后缀不相同情况
for(int i=0;i<strlen(p);i++) { while(j>0||p[i]!=p[j]) { j=next[j-1]; } }
-
前后缀相同情况
if(p[i]==p[j]) { j++; }
-
更新 next 数组
next[i]=j;
-
合并代码
void getNext(char *p,int *next) { int j=0; next[0]=0; //第一个字符没有前后缀 for(int i=0;i<strlen(p);i++) { while(j>0||p[i]!=p[j]) { j=next[j-1]; } if(p[i]==p[j]) { j++; } next[i]=j; } }
相信大家通过代码更加理解了如何求 next 数组了。
匹配
通过以上对 next 数组的理解之后,我们再来KMP 算法是如何匹配的,我们已知,next 数组所代表的就是最大前缀后缀值,也就是说,在失配字符前,有多少个可重复的前缀后缀,这也意味着在某个字符失配时,该字符对应的next 值会告诉你下一步匹配中,模式串应该跳到哪个位置(跳到next [j-1] 的位置,也就是在失配字符之前已经重复出现过的前缀的后一个字符)。如果next [j] 等于0或-1,则跳到模式串的开头字符,若next [j] = k 且 k > 0,代表下次匹配跳到j 之前的某个字符,而不是跳到开头,且具体跳过了k 个字符。
图例表示
可以看到,当失配时,会跳到当前字符p[j]前一个字符p[j-1]的 next[j-1]值所指的字符,然后接着匹配,直至全部匹配到。
我们可以简单的用代码表示
int kmp(char *s,char *t)
{
int j=0;
for(int i=0;i<strlen(s);i++)
{
if(j==0||s[i]==t[j])
{
j++;
}
else
{
j=next[j-1];
}
}
if(j==strlen(t))
{
return i-j;
}
return -1;
}
演示代码
我们将两个函数合并,并运行一下程序
#include <stdio.h>
#include<string.h>
void getNext(char *p, int *next)
{
int j = 0;
next[0] = 0; // 第一个字符没有前后缀
for (int i = 1; i < strlen(p); i++)
{
while (j > 0 && p[i] != p[j])
{
j = next[j - 1];
}
if (p[i] == p[j])
{
j++;
}
next[i] = j;
}
}
int kmp(char s[], char t[])
{
int j = 0;
int n = strlen(t);
int next[n];
getNext(t, next);
for (int i = 0; i < strlen(s); i++)
{
while (j > 0 && s[i] != t[j])
{
j = next[j - 1];
}
if(s[i]==t[j])
{
j++;
}
if (j == strlen(t))
{
return i - j+1;
}
}
return -1;
}
int main()
{
char s[10];
scanf("%s",s);
char t[10];
scanf("%s",t);
getchar();
printf("%d\n", kmp(s, t) + 1);
return 0;
}
结果
正确输出结果,abac 在 ababac 中第一次出现未知是 3。
总结
KMP 算法对于初学者来说确实会有些迷惑,但是只要理解了核心思想,现在看来也还是蛮简单的对吧。希望这对你学习 KMP 算法有所帮助
部分内容来自 代码随想录