KMP算法是一种改进的字符串匹配算法,由D.E.Knuth,J.H.Morris和V.R.Pratt提出的,因此人们称它为克努特—莫里斯—普拉特操作(简称KMP算法)。KMP算法的核心是利用匹配失败后的信息,尽量减少模式串与主串的匹配次数以达到快速匹配的目的。具体实现就是通过一个next()函数实现,函数本身包含了模式串的局部匹配信息。KMP算法的时间复杂度O(m+n)
一、暴力算法
int BF(char *chang,char *duan)
{
int c_strlen=strlen(chang);
int d_strlen=strlen(duan);
int c=0,d=0;
while(c<c_strlen && d<d_strlen){
if(chang[c]==duan[d]){
c++;
d++;
}
else{
c = c - d + 1; //这里要回到开始处,然后下一个字符继续开始匹配所以+1;
d = 0;
}
}
return d<d_strlen?-1:c-d;
}
其特点,使用两个指针,一个指向主串,一个指向子串。
如果匹配成功,两个指针往后走一位,继续匹配。
如果匹配失败,主串指针回溯到开始匹配的下一个字符,子串指针回溯到开始的字符。
直到字符串匹配成功,返回开始匹配处的主串下标。
这种算法,其时间复杂度是 O(m*n)。
二、KMP算法
使用BF算法的时候,会发现如果失配,两个指针都要回溯。KMP算法的思想,就是只回溯一个子串指针,主串指针不变。这样KMP算法的时间复杂度就是O(n+m)。
子串指针回溯:
既然知道KMP算法只回溯子串指针,那么如何回溯子串指针呢?这里通过例子讲解。
PS:KMP算法一种子串类型是不足以解释所有的情况,所有下面会使用多种类型的子串进行解析
上图,假设已经匹配到了"流"处,失配进行指针回溯,注意发现。子串部分字符串前面和后面是相同的。
既然前面部分相同,又和主串相匹配。那么这里使用KMP,就能让子串指针直接跳过,已经匹配过的相同的字符,直接从子串的第三个位置"楼"处匹配。
那么问题就来了,子串如何知道,要回溯到"楼"处匹配呢?
这里就需要计算Next[]数组。Next[]数组中存储的就是,子串对应下标位置失配后,指针回溯的位置
计算Next[]数组和原理:
计算Next[]数组,主要是计算子串一个下标位置,前面最长的相同字符串长度。其也叫真前缀和真后缀。
PS:注意这里判断真前后缀时是否相等时,都要以Str[0]处的字符开始,以Str[i-1]处的字符为结束。这里i是匹配失败的位置,也是Next[]的下标。
首先前两个字符是没有前缀和后缀的,所以Next[]数组,第一位和第二位都为固定为0。