KMP算法
以主串str={" abcabcdabced “},
子串sub={” abcd "}为例,
并且输入位置pos,主串从第pos位置开始和子串对比匹配。
1.基本思路(主串打死不会退)
发生失配时有两种可能性:
第①种:失配位置之前,已经匹配过的那些字符互不相等,则i不用回退
第②种:失配位置之前,已经匹配过的那些字符有相等部分,则i不用回退
结论:为什么说i(主串)可以打死不会退:
1.如果失配前字符互不相等,则i不用回退。
2.如果失配前字符有相等,则i也不用回退,可以让j回退到一个合适的位置(不必再每次都回退到0下标)相当于让i和j接下来成功跳过一部分(此部分必然相等)这样就大大的节省了时间。
所以我们发现相等的那一部分最重要(这一部分叫做部分匹配表PMT)
2.next数组的获取(部分匹配表PMT)
(这个相等的部分只和子串有关)
3.KMP算法的实现
① 需要的头文件:
#include<iostream>
using namespace std;
#include<stdlib.h>
#include<assert.h>
② 部分匹配表(next数组)的获取
int *Get_next(const char* sub) //next数组只于子串sub有关,和主串无关
{
int len=strlen(sub);
int *next=(int*)malloc(sizeof(int)*len);
assert(next!=NULL);
//next数组第0和1下标存放的值是固定的
next[0]=-1;
next[1]=0;
int j=2; //j是当前位置,从2下标开始计算next的值
int k=next[1]; //k保存前一个位置next数组的值
while(j<len)
{
if(sub[j-1]==sub[k] || k==-1)
//前一个字符和next位置的字符(回退位置)相等或者触底都让k和j加一
//并把k加一后的结果给当前位置j,然后j再加一
{
k++;
next[j]=k;
j++;
}
else
//前一个字符和next位置的字符(回退位置)不相等
//那就让k一直回退
{
k=next[k];
}
}
return next;
}
③ KMP实现
int KMP_Search(const char* str,const char* sub,int pos)
{
assert(str!=NULL && sub!=NULL);
int len_str=strlen(str);
int len_sub=strlen(sub);
int i=pos; //i为主串开始位置,从第pos下标开始匹配
int j=0; //j为子串开始位置,从0开始匹配
int* next=Get_next(sub); //获取next数组
while(i<len_str && j<len_sub)
{
if(j==-1 || str[i]==sub[j])
{
i++;
j++;
}
else //匹配失败,则只让j回退到正确的位置
{
j=next[j];
}
}
//while循环退出有两个可能:
//i走出范围,但不一定j走完,j如果没有走完,则代表没有找到
//j走出范围,代表匹配成功
//因此只要j走出范围就代表匹配成功
if(j>=len_sub)
{
free(next);
return i-j;
}
else
{
free(next);
return -1;
}
}
④ 主函数
int main()
{
const char* ar = "abcabcdabcde";
const char* br = "abcda";
int pos = 0;
cout<<"请输入开始匹配位置:";
cin >> pos;
int s = KMP_Search(ar, br, pos);
if (s != -1)
{
cout << "在主串的第"<<s<<"位置匹配成功";
}
else
{
cout << "未找到";
}
return 0;
}
⑤ 运行结果
匹配成功:
匹配失败: