解题思路
KMP算法最常用的用法即:查找一个字符串在另一个字符串中的位置,时间复杂度为O(m+n);
KMP算法的核心就是模式串的next[]数组的求法以及所代表的含义。
求next[]就是看模式串的前缀集合与后缀集合的交集中最长元素的长度,且我们规定next[0] = 0;因为第一个字符没有前缀和后缀。
前缀:对于"aba",它的前缀集合为{“a”, “ab”};
后缀:后缀集合为{“ba”, “a”}。
举个例子
模式串为t"abcabd"
{a}无前后缀,则next[0] = 0;
{a,b}前缀{a},后缀{b},交集为空即长度为0,则next[1] = 0;
{a,b,c}前缀为{a,ab},后缀为{bc,b},交集为空即长度为0,则next[2] = 0;
{a,b,c,a}前缀为{a,ab,abc},后缀为{bca,ba,a},交集为{a},长度为1,则next[3] = 1;
{a,b,c,a,b}前缀为{a,ab,abc,abca},后缀为{bcab,bab,ab,b},交集为{ab},长度为2,则next[4] = 2;
{a,b,c,a,b,d}前缀为{a,ab,abc,abcab},后缀为{bcabd,babd,abd,bd},交集为空,长度为0,则next[5] = 0;
所以模式串t"abcabd"的next[]={0,0,0,1,2,0};
然后明白:next数组表示的内容为:当next[j]=m,即t[0]…t[m-1]=t[j-m]…t[j-1];
然后看例子:当模式串"abcabd"遍历到最后一个字符’d’时发现不匹配,根据KMP算法此时应该回溯,那我们模式串的指针应该回到哪呢?回到next[j]=next[5]=0?
No!这个时候我们应该回到next[j-1]=next[4]=2的位置。因为,当’d’不匹配的时候我们应该回溯到能与当前位置j表示的字符’d’相对应的位置(即对应位置的前若干个字符与j指向的位置的前若干个字符相等。最坏情况找不到对应位置,只能从0开始),即与*从j-1这个地方开始向前的字符串*相等的最大字符数且从模式串0位置开始的字符串,即t[0]…t[m-1]=t[j-m-1]…t[j-2]即next[j-1]。
代码
class Solution {
public int strStr(String haystack, String needle) {
if (needle.length() == 0) return 0;
int hayNum = haystack.length(), needNum = needle.length();
char[] hay = haystack.toCharArray();
char[] need = needle.toCharArray();
int[] next = new int[needNum];
getNext(need, next);
for (int i = 0, j = 0; i < hayNum; i++) {
/**
* 这个地方j>0有两种原因:
* 1.要保证next[j-1]不越界,因此j>0;(主要原因)
* 2.要给a[i]!=a[j]找一个出口。
* 如果模式串经过回溯已经回到j=0的位置了且此时hay[i]还是不等于need[j]
* 因为next[0]=0且i的值不会改变,如果没有j>0且假设next[j-1]存在且为0
* 那么while就会进入死循环
**/
while (j > 0 && hay[i] != need[j]) {
j = next[j-1];
}
if (hay[i] == need[j]) j++;
if (j == needNum) {
return i - needNum + 1;
}
}
return -1;
}
public void getNext(char[] a, int[] next) {
int n = a.length;
next[0] = 0;
for (int i = 1, j = 0; i < n; i++) {
while (j > 0 && a[i] != a[j]) {
j = next[j - 1];
}
if (a[i] == a[j]) {
j++;
}
next[i] = j;
}
}
}