数据结构与算法总结-KMP算法
KMP算法
假设有主串S和模式串T,寻找T在S中的匹配位置(或无匹配)。
(1)先说一下普通直观的BF算法,它的主要思想就是相等继续,不相等回溯。逐个字符检查T是否与S匹配,若匹配,则继续检查两者的下一个字符,直到T或S到达字符串尾部,若T到达字符串尾部,表示匹配完成,返回此轮匹配在S中开始的位置。若不匹配,T串从头开始,S串从上一轮匹配中的第一个字符加1的位置开始,相当于回溯。
int BF(char *S, char *T)
{
if(S == NULL || T == NULL)
return -1;
int i = 0, j = 0;
int pos = 0;
while(S[i] != '\0' && T[j] != '\0')
{
if(S[i] == T[j])
{
i++; j++;
}
else
{
i = i - j + 2;
j = 0; pos = i;
}
}
if(T[j] == '\0')
return pos;
else
return -1;
}
(2)BF算法实现很简单,在最好的情况下,每次不成功的匹配都发生在模式串的第一个字符与主串相应字符的比较,时间复杂度为O(n+m),n为主串长度,m为模式串长度。在最坏的情况下,每次不成功的匹配都发生在模式串的最后一个字符与主串相应字符的比较,时间复杂度为O(n*m)。
(3)KMP算法的改进之处在于,每当一趟匹配过程中出现字符比较不等时,不需回溯S串,而是利用已经得到的部分匹配的结果将模式串向右滑动尽可能远的一段距离后,继续进行比较。
在实际算法中,我们预先计算一个next数组。保存模式串中每一项在不匹配时需要滑动的距离。
//计算next值
void getNext(char *T, int next[])
{
int i = 0, j = -1;
next[0] = -1;
while(T[i] != '\0')
{
if(j == -1 || T[i] == T[j])
{
i++; j++;
if(T[i] != T[j]) next[i] = j;
else next[i] = next[j];
}
else j = next[j];
}
}
int KMP(char *S, char *T, char *next)
{
int i = 0, j = 0;
while(S[i] != '\0' && T[j] != '\0')
{
if(j == -1 || S[i] == T[j])
{
i++; j++;
}
else j = next[j];
}
if(T[j] == '\0')
return i - j + 1;
else return -1;
}