子串的定位操作通常称作串的模式匹配。
Index(S,T,pos); T被称为模式串。
直观算法:
int Index(String S,String T,int pos){
i = pos; j = 1;
lenS = strlen(S); lenT = strlen(T);
while(i <= lenS && j <= lenT){
if(S[i] == T[j]){ ++i; ++j;}
else{ i = i-j +2; j = 1;}
}
if(j > lenT) return i-lenT;
else return 0;
}
直观算法很简单,如果字符串中当个字符匹配,主串指针和模式串指针都向前移;一旦某个字符不匹配,重新再来,主串指针指向匹配开始的下一位置,模式串指针从头开始。
改进的办法:
当失配的时候,不回溯i指针,而是利用已经得到的”部分匹配“的结果将模式向右滑动尽可能远的一段距离。
用数组next[]表示,next[j]表名当模式中的第j个字符与主串中相应字符失配时,在模式中需重新和主串中的该字符进行比较的字符的位置。
int Index_KMP(String S,String T,int pos){
i = pos; j = 1;
lenS = strlen(S); lenT = strlen(T);
while(i <= lenS && j <= lenT){
if(S[i] == T[j]){ ++i; ++j;}
else{ j = next[j];} //代码唯一修改的地方
}
if(j > lenT) return i-lenT;
else return 0;
}
现在要解决的问题就变得单一了:
如何获取数组next[],而且是模式串T与模式串T间发生匹配,这种思想就是根据已经获得的部分匹配获得偏移量
void get_next(String T,int next[]){
i = 1; j = 0;
next[1] = 0;
len = strlen(T);
while(i < len){
if(j == 0 || T[i] == T[j]) {++i; ++j; next[i] = j;} //匹配成功则两指针一起后移,并获得next
else j = next[j]; //失配的时候则只要用已经获得的部分匹配模式串指针j后移一段距离
}
}
继续改进
void get_nextval(String T,int nextval[]){
i = 1; j = 0;
nextval[1] = 0;
len = strlen(T);
while(i < len){
if(j == 0 || T[i] == T[j]) {
++i; ++j;
if(T[i] != T[j]) nextval[i] = j;
else nextval[i] = nextval[j]; //那么发生失配时,对于连续相等的字符,不做逐一检查,而是避开连续匹配的单元
}
else j = nextval[j];
}
}