本篇文章不涉及KMP算法的基本原理,且仅针对于最长相等前后缀长度的next数组的表示的计算
先看代码
void getNext(string p,int*next){
int i=0,j=-1;
next[0]=-1;
while(i<p.length()){
if(j==-1 || p[i] == p[j]){
i++;j++;
next[i] = j;
}else{
j=next[j];
}
}
}
基础
- next数组的值每次最多增一
- 当前位置的next数组的值取决于其之前的字符串
- 模式串的最后一位字符不会影响next数组的结果
next[0] 一定为 -1
,特殊取值,当首字母匹配失败则可进入下一轮判断next[1] 一定为 0
,最长相等前后缀长度为0
i和j指针代表什么?
i指针
用来标识已匹配后缀的后一个位置
,同时也是最后一位已知next数组值的位置,其之前字母的关系都是可以确定的。
j指针
标识已匹配前缀的后一个位置
,其值等于next[i]
(因为在代码中是以0为起始下标,则next[i]最长相等前后缀长度可以完全对应数组下标)。
注: i所在位置的next数组的值一定是已知的
结合图示理解:
1.假定红色区域为下一位待确定数值的位置,即模式串第七个字母,其next数组的值完全取决于前6个字母。设i,j指针所处位置如下,next[i]=2,可知A部分和B部分是相等的,那么j此时应该指向下标2。
2.基于此,若pattern[i]等于pattern[j]
,则此时前后缀末尾匹配成功。那么则可确定红色区域的值,为next[i]+1(j+1)
(这里的i,j还没有发生改变);也就是对应于代码中的i++;(指向待定位置),j++;(确定next数组的值),然后赋值。如下:
3.如若pattern[i]不等于pattern[j]
,则此时j指针应该回溯到次最长的相等前后缀的位置,即next[j]的值
。假定这里next[j]=1.即可说明A部分中的两个字母相同,同理,B部分中的两个字母也相同(图中深绿色的部分):
这种情况下,继续重复判断即可。对应代码中j = next[j]。
4.若此时pattern[i]依旧不等于pattern[j],则j会继续回溯到当前next[j]标识的位置,即下标为0的位置。
5.如若还不相等,j的值则会变为-1
,代表无公共前后缀
,此时也相应执行i++,j++,i指向了待确定next数组值的位置,j的值0代表了最长相等前后缀长度,执行赋值操作后再依次确定之后的位置(本图示中即已结束)。
完整KMP代码(包含示例)
//KMP
void getNext(string p,int*next){
int i=0,j=-1;
next[0]=-1;
while(i<p.length()){
if(j==-1 || p[i] == p[j]){
i++;j++;
next[i] = j;
}else{
j=next[j];
}
}
}
int KMPMatch(string text,string pat,int*next){
int i=0,j=0;
while(i<(int)text.length() && j<(int)pat.length()){
if(j==-1 || text[i] == pat[j]){
i++;j++;
}else{
j=next[j];
}
}
if(j == pat.size()){
return i-pat.size();
}else{
return 0;
}
}
小tip: 在KMPMatch函数中,由于j的值可能为-1,而pat.length() 返回的是 size_t 类型,这是一个无符号整数类型,必须进行强制类型转换。