处理字符串匹配问题,最简单直接的方法是BF算法,原串用i表示指向的字符位置,模式串用j表示。开始从i=0,j=0比较str[i]和mo[j]是否相等。若相等i++,j++。若不相等,j重新指向0位置,i从第二个str[1]开始......。这样时间复杂度为l1*l2.。比较耗时。
而KMP利用模式串相同的前缀后缀。j指针回溯,i指针不回溯。因为匹配到模式串的j时说明前j-1个串一定是全匹配的,下次的匹配不需要j从0开始,下次匹配成功的地方一定是从j=Next[j]处开始的,当匹配出现str[i]!=mo[j]时,j指针指向Next[j]的位置,其中用Next[j]表示前0~j-1这个串中的相同前缀后缀的最长长度。如例子匹配到j=5时str[i]!=mo[j],j回到Next[j],再比较str[i]与mo[j],为什么不把j=0与i=1开始匹配呢,因为这样匹配的话,成功的条件是主串的从第二位开始后的串baab和模式串的abaa是相等的串,而满足它的条件是j=5时的j前面的串的前后缀相等的长度可达到4,即若Next[j]!=4时str[1]和mo[0]是不可能匹配成功的;所以下次从模式串Nextj][和主串的i(上次匹配不成功出现的位置)比较,模式串的0~Next[j]个字符一定和主串i前面的next[j]个字符匹配。难点在于Next[]数组如何求。
abaabaabbabaaabaabbabaa 原串str
abaabbabaab 模式串
前缀不包括最后一个字符,后缀不含第一个字符,所以求模式串第j位前的串的相等前后缀,要把j从0和i从1开始。
void getNext()
{
int i=0;
int j=-1;
int len=strlen(mo);
while(i<len)
{
if(j==-1||mo[i]==mo[j])
{
i++;
j++;
Next[i]=j;
}
else
j=Next[j];
}
}
计算主串中有几个模式串
int kmp()
{
int i=0;
int j=0;
int ans=0;
int l1=strlen(str);
int l2=strlen(mo);
while(i<l1)
{
if(j==-1||mo[j]==str[i])
{
i++;
j++;
}
else j=Next[j];
if(j==l2) ans++;
}
return ans;
}