KMP
实现 strStr() 函数。
给定一个 haystack 字符串和一个 needle 字符串,在 haystack 字符串中找出 needle 字符串出现的第一个位置 (从0开始)。如果不存在,则返回 -1。
示例 1: 输入: haystack = “hello”, needle = “ll” 输出: 2
示例 2: 输入: haystack = “aaaaa”, needle = “bba” 输出: -1
说明: 当 needle 是空字符串时,我们应当返回什么值呢?这是一个在面试中很好的问题。 对于本题而言,当 needle 是空字符串时我们应当返回 0 。这与C语言的 strstr() 以及 Java的 indexOf() 定义相符
思路
这道题是经典的KMP题,KMP流程大致为以下:
- next数组
- 匹配
next数组
构造匹配串的next数组,首先要知道什么是前缀、后缀以及最长公共前后缀。
前缀即一个字符串不包含最末字符的所有子串,如:aabsd,它的前缀有a、aa、aab、aabs,
而后缀同理,不包含第一个字符的所有子串,同样是上面的例子,它的后缀为:d、sd、bsd、absd
而最长公共前后缀则是前后缀集合中相等的最大长度串。
next数组的每一位的意义是:当前位置的前面字符串的最长公共前后缀长度(不包含当前字符)。
加入当前有串:aabaaf
经过计算,它的next数组为:010120。
代码思路
首先要比较前后缀,我们需要定义两个指针
- prefix_end:指向前缀最末字符所在位置
- suffix_end:指向后缀最末字符所在位置
初始化
prefix_end = 0
next[0] = prefix_end;
处理前后缀不相等
for(suffix_end = 1;suffix_end < s.size();suffix_end++)
{
while(prefix_end > 0 && s[prefix_end] != s[suffixe_end]){
prefix_end = next[prefix_end - 1];
}
}
这里将suf初始化为1,开始循环,如果遇到不相等的字符,则进行回退,回退的方法就是跳到前一个匹配的位置,即取next数组的前一位。
处理前后缀相等
if(s[prefix_end] == s[suffix_end]){
prefix_end ++;
}
如果字符相等,则同时向前移动。
最后对next数组进行更新
next[suffix_end] = prefix_end
匹配
KMP的思路就是,每当字符不相等时,将当前的匹配串下标值改为next数组的前一位。这么说好像有点抽象,代码如下:
int j=0;
for(int i=0;i<s.size();i++){
while(j>0 && s[i] != p[j]){
j = next[j-1];
}
if(s[i] == p[j])j++;
if(j == p.size()){
return i - p.size() +1; //返回初始匹配位置
}
}
整体代码
class Solution {
public:
int strStr(string haystack, string needle) {
if (needle.size() == 0)return 0;
vector<int> next(needle.size(),0);
getNext(next,needle);
// begin to match
int res_index=-1;
int match_index = 0;
for (int i = 0; i < haystack.size(); ++i) {
while (match_index > 0 && haystack[i] != needle[match_index])
{
match_index = next[match_index-1];
}
if (haystack[i] == needle[match_index]) match_index++;
if (match_index == needle.size()){
return i - needle.size() + 1;
}
}
return -1;
}
void getNext(vector<int> &next, const string s)
{
int prefix_end = 0;
next[0] = prefix_end;
for (int suffix_end = 1; suffix_end < s.size(); ++suffix_end) {
// 处理不相等的情况
while(prefix_end > 0 && s[prefix_end] != s[suffix_end])
{
prefix_end = next[prefix_end -1];
}
if (s[prefix_end] == s[suffix_end])
{
prefix_end++;
}
next[suffix_end] = prefix_end;
}
}
};