字符串匹配--KMP算法

最新推荐文章于 2023-06-05 04:38:10 发布

zhuoya_

最新推荐文章于 2023-06-05 04:38:10 发布

阅读量235

点赞数

分类专栏：数据结构文章标签： KMP算法字符串匹配

本文链接：https://blog.csdn.net/zhuoya_/article/details/80186058

版权

数据结构专栏收录该内容

6 篇文章 1 订阅

订阅专栏

在上一篇文章中讲了朴素算法（点击打开链接），可以看出在大多数情况下，这种比较显得很慢，要做很多次不必要的比较。

因此有了KMP算法，可以减少一些不必要的比较，还是上篇文章的栗子，分析一下：

KMP正是这种思想：主串下标不需要回退，需要变化的就是子串的下标。子串下标只需要回退到合适的位置即可。

需要明白两个概念：前缀和后缀

假设字符串为"hello"

前缀有：h , he , hel , hell

后缀有：ello , llo , lo ,o

再看下面栗子，分析子串下标如何回退。

在回退过程中，主串下标一直往前走，改变的只是子串的下标，也就是说，子串下标的变化与主串没有关系，关键在于子串本身前缀和后缀所包含相同的字符。

有了上面的想法，只需事先将子串下标的变化定义为一个next数组即可，这样每次当子串下标后退时，只需要查找next数组就可以知道要回退到哪里咯。

上面的例子我们得到next数组如下：

代码：

#include<iostream>
#include<string>
using namespace std;
void GetNext(string T,int* next)//得到next数组
{
	int i=0;
	int j=-1;
	int Tlen=T.length();
	next[0]=-1;
	while(i<Tlen)
	{
		if(j==-1 || T[j]==T[i])
		{
			++i;
			++j;
			next[i]=j;
		}
		else
			j=next[j];/*改进：else{if(T[j]==T[i]){next[i]=next[j];}j=next[j];}*/
	}
}
int KMP(string M,string T,int pos)
{
	int index=-1;
	int i=pos;
	int j=0;
	int Mlen=M.length();
	int Tlen=T.length();
	if(pos<0 || pos>=Mlen)
		return index;
	
	int next[100];
	GetNext(T,next);

	while(i<Mlen && j<Tlen)
	{
		if(j==-1 || M[i]==T[j])
		{
			++i;
			++j;
		}
		else
			j=next[j];
	}
	if(j>=Tlen)
		index=i-Tlen;
	
	return index;
}
int main()
{
	string M;
	getline(cin,M);
	string T;
	getline(cin,T);

	int index=KMP(M,T,1);
	cout<<index<<endl;
	return 0;
}

注：说明一下代码中标示的改进思想：
也称KMP的改进。
主要源于对next数组的求解过程中，每一位下标的值next[i]都依赖于上一个下标匹配的情况

假设有一个数组

计算出其next数组为：

可以看出，假设在T[3]处失配，查看next[3],知道子串下标需要回退到下标为2的位置。T[2]与T[3]都为'a'，所以一定在T[2]处也失配，继续回退，回退到next[2]=1处。T[1]与T[3]都为'a'，一定在T[1]处也失配，继续回退，回退到next[1]=0处。可以看出，这种回退是没有必要的，所以进行修改，当此时子串失配元素与要跳转的位置元素相同时，直接将next数组更改为最终要跳到的地方。

举两个例子加深一下印象：

分析：时间复杂度为O（m+n）

zhuoya_

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
字符串匹配--KMP算法

在上一篇文章中讲了朴素算法（点击打开链接），可以看出在大多数情况下，这种比较显得很慢，要做很多次不必要的比较。因此有了KMP算法，可以减少一些不必要的比较，还是上篇文章的栗子，分析一下：KMP正是这种思想：主串下标不需要回退，需要变化的就是子串的下标。子串下标只需要回退到合适的位置即可。需要明白两个概念：前缀和后缀假设字符串为"hello"前缀有：h , he , hel , hell 后缀有：e...
复制链接

扫一扫