该算法解决的问题是:给一个字串,求其在主串中的位置。
该问题最简单的解法是:两个遍历,最差的时间复杂度O(M*N)
所以改进,用KMP算法,时间复杂度是O(n+m),核心是先得到一个字串的next[]数组,用来存放当与主串匹配,不匹配时,回退的位置。
while(i<masterLen && j<subLen)
{
if(j==0 || *(sMaster+i) == *(sSub+j)) { i++;j++; }
else j = next[j];
}
if(j>subLen) return i-sublen;
else return 0;
关键就是求next[]数组,next数组与模式串单独有关,与主串无关。
理解分析:
当S1,S2...Sn主串与模式串P1,P2...Pn进行比较,当出现Si != Pj时,S中的i 不需要回溯,只需要直接与P中的next[j],进行比较。
假设k=next[j],则P中前k-1元素必然满足(k<j,k必须小于j):
P1P2...Pk-1 = Si-k+1,Si-k+2...Si-1;
而在Si != Pj失配时,则有等式:
Si-k+1,Si-k+2...Si-1 = Pj-k+1...Pj-1;
所以有等式:
P1,P2...Pk-1=Pj-k+1...Pj-1;
由此可见,k的值next[j] 是与模式串本身有关,与主串无关的。那么next[j]的值如何求?
分三种情况:
1.j=1时 next[j] = 0;
2.存在P1,P2...Pk-1=Pj-k+1...Pj-1; 时 next[j] = Max{k|1<k<j P1,P2...Pk-1=Pj-k+1...Pj-1不为空}
3.next[j] = 1; 其他情况
代码如下:
void getNext(String T,int[] next)
{
next[1] = 0;
i = 1;
j = 0;
while(i<T.len)
if(j==0 || T[i] == T[j])
{
i++;
j++;
next[i] = j;
}
else
{
j = next[j];
}
}
}
设计的很巧妙。
当出现字串'aaaab'时,其实前面一串字母相同,遇到不匹配时其实会出现多往前匹配的情况,比如比到主串是'aaabaaaab',所以对于重复的字串应该做改进算法:
void getNext(String T,int[] next)
{
next[1] = 0;
i = 1;
j = 0;
while(i<T.len)
if(j==0 || T[i] == T[j])
{
i++;
j++;
if(T[i] != T[j]) next[i] = j;
else next[i] = next[j];
}
else
{
j = next[j];
}
}
}
这样就会避免如此问题。