字符串匹配--KMP算法

在上一篇文章中讲了朴素算法(点击打开链接),可以看出在大多数情况下,这种比较显得很慢,要做很多次不必要的比较。

因此有了KMP算法,可以减少一些不必要的比较,还是上篇文章的栗子,分析一下:


KMP正是这种思想:主串下标不需要回退,需要变化的就是子串的下标。子串下标只需要回退到合适的位置即可。

需要明白两个概念:前缀和后缀

假设字符串为"hello"

前缀有:h , he , hel , hell 

后缀有:ello , llo , lo ,o

再看下面栗子,分析子串下标如何回退。


在回退过程中,主串下标一直往前走,改变的只是子串的下标,也就是说,子串下标的变化与主串没有关系,关键在于子串本身前缀和后缀所包含相同的字符。

有了上面的想法,只需事先将子串下标的变化定义为一个next数组即可,这样每次当子串下标后退时,只需要查找next数组就可以知道要回退到哪里咯。

上面的例子我们得到next数组如下:


代码:

#include<iostream>
#include<string>
using namespace std;
void GetNext(string T,int* next)//得到next数组
{
	int i=0;
	int j=-1;
	int Tlen=T.length();
	next[0]=-1;
	while(i<Tlen)
	{
		if(j==-1 || T[j]==T[i])
		{
			++i;
			++j;
			next[i]=j;
		}
		else
			j=next[j];/*改进:else{if(T[j]==T[i]){next[i]=next[j];}j=next[j];}*/
	}
}
int KMP(string M,string T,int pos)
{
	int index=-1;
	int i=pos;
	int j=0;
	int Mlen=M.length();
	int Tlen=T.length();
	if(pos<0 || pos>=Mlen)
		return index;
	
	int next[100];
	GetNext(T,next);

	while(i<Mlen && j<Tlen)
	{
		if(j==-1 || M[i]==T[j])
		{
			++i;
			++j;
		}
		else
			j=next[j];
	}
	if(j>=Tlen)
		index=i-Tlen;
	
	return index;
}
int main()
{
	string M;
	getline(cin,M);
	string T;
	getline(cin,T);

	int index=KMP(M,T,1);
	cout<<index<<endl;
	return 0;
}                                                                                                           
注:说明一下代码中标示的改进思想:
也称KMP的改进。
主要源于对next数组的求解过程中,每一位下标的值next[i]都依赖于上一个下标匹配的情况

假设有一个数组


计算出其next数组为:


可以看出,假设在T[3]处失配,查看next[3],知道子串下标需要回退到下标为2的位置。T[2]与T[3]都为'a',所以一定在T[2]处也失配,继续回退,回退到next[2]=1处。T[1]与T[3]都为'a',一定在T[1]处也失配,继续回退,回退到next[1]=0处。可以看出,这种回退是没有必要的,所以进行修改,当此时子串失配元素与要跳转的位置元素相同时,直接将next数组更改为最终要跳到的地方。

举两个例子加深一下印象:


分析:时间复杂度为O(m+n)

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值