一、next数组定义
next[j]:
if j=1 then 0
elif {k| 1<k<j,且’p1 …pk-1'=‘pj-k+1 …pj-1’ } 当此集合为不空 then 最大值
else 1
1.实例字符串:ababaaba
j | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
---|---|---|---|---|---|---|---|---|---|
模式串T | a | b | a | b | a | a | a | b | a |
next[j] | 0 | 1 | 1 | 2 | 3 | 4 | 2 | 2 | 3 |
- 规律总结
如果前后缀一个字符相等,则next[j]值是2,2个字符相等next[j]是3,n个相等next[j]就是n+1。
2.C语言代码
void get_next(string T,int *next)
{
int i,j;
i = 1;
j = 0;
next[1] = 0 ;
while (i<T[0])
{
if(j == 0||T[i]==T[j])
{
++i;
++j;
next[i]=j
}
else
j = next[j];
}
}
3.代码运行过程
二、匹配字符串代码
/*返回子串T在主串S中第pos个字符之后的位置。若不存在,则函数返回值为0.*/
/*T非空,1<=pos<=StrLength(S)*/
int Index_KMP(String S,String T,int pos)
{
int i = pos; /*i用于主串S当前位置下标值,若pos不为1,则从pos位置开始匹配*/
int j = 1 ; /*j用于子串T中当前位置下标值*/
int next[255] /*定义一个next数组*/
get_next(T,next); /*对串T做分析,得到next数组*/
while (i<=S[0] && j<=T[0])/*若i小于S的长度且j小于T的长度时,循环继续*/
{
if(j==0 || S[i]==T[j])/*两字母相等则继续,相对于朴素算法增加了j=0判断*/
{
++i;
++j;
}
else /*指针后退重新开始匹配*/
{
j = next[j]; /*j退回合适的位置,i值不变*/
}
}
if (j > T[0])
return i-T[0];
else
return 0;
}
1.代码执行过程
2.注意
- KMP算法仅当模式与主串之间存在很多‘部分匹配’的情况下才体现出它的优势,否则它与朴素匹配(i回溯)差异不大
三、KMP模式匹配算法改进
- 算法思路:它是在计算出next值的同时,如果a位字符与它next值指向的b位字符相等,则该a位的nextval就指向b位的nextval值,如果不等,则a位的nextval值就是它自己a位的next的值。
1.nextval数组代码
/*求模式串T的next函数修正值并存入数组nextval*/
void get_nextval(String T,int *nextval)
{
int i,j;
i=1;
j=0;
nextval[1]=0;
while (i<T[0]) /*此处T[0]表示串T的长度*/
{
if (j==0||T[i]==T[j]) /*T[i]表示后缀的单个字符,T[j]表示前缀的单个字符*/
{
++i;
++j;
if (T[i]!=T[j]) /*若当前字符与前缀字符不同*/
nextval[i]=j; /*则当前的j为nextval在i位置的值*/
else
nextval[i]=nextval[j]; /*如果与前缀字符相同,则将前缀字符的nextval*/
/*值赋值给nextval在i位置的值*/
}
else
j = nextval[j]; /*若字符不相同,则j值回溯*/
}
}