匹配字符串的KMP算法

KMP算法

KMP算法是一种改进的字符串匹配算法,由D.E.Knuth,J.H.Morris和V.R.Pratt同时发现,因此人们称它为克努特——莫里斯——普拉特操作(简称KMP算法)。KMP算法的关键是利用匹配失败后的信息,尽量减少模式串与主串的匹配次数以达到快速匹配的目的。具体实现就是实现一个next()函数,函数本身包含了模式串的局部匹配信息。时间复杂度O(m+n)。

——引例——

现有一个原串和一个匹配串
原串:ababcabcbcaababcaccbababa
模式串:ababa
判断原串中是否含有模式串
(为了方便演示,原串具有高度重复,并在串的最后保证有解)
在这里插入图片描述
不妨称原串为 s 1 s1 s1,模式串为 s 2 s2 s2,起始位都记为第 0 0 0位。
首先可以看到 0 0 0 ~ 3 3 3 这四位是相同的,到第 4 4 4位的时候出现不同,理想状态下,我们希望如下图所示的移动匹配串
在这里插入图片描述
因为我们发现模式串前 4 4 4个字符 " a b a b " "abab" "abab"中,前面两个和后面两个字符一样,那么如果前面这四个字符在某个位置刚好和原串匹配,但最后一个字符不匹配时,可以利用这次匹配失败的结果,直接向后移两位。

KMP就是实现这一过程的优良方法。在进行匹配之前,我们需要知道当某个位置匹配失败时,我们应该让
序列跳动到哪个位置。事先处理好之后,就能跳跃着进行字符串匹配。


跳动的指针、前缀与后缀

通过上面的例子,我们发现像 " a b a b " "abab" "abab"这样的序列,当后面一个字符出错时,会跳到第二个 ′ a ′ 'a' a的位置。
假设现在有一个序列为"aaabbbaaabbbaaa",当中间一位或最后一位出错时,该如何移动?

中间一位:我们发现,无论如何向后移动序列都不能与原来既定匹配的位置重叠,只好移到第1位,才姑且保证我们的匹配进度不会倒退。
在这里插入图片描述
最后一位:如图,我们可以序列跳到第8位,在进行判断继续跳跃,直到0位与这个不匹配位相对
在这里插入图片描述
根据这个快速跳跃的规则,我们建立一个数组,对于 " a a a b b b a a a b b b a a a " "aaabbbaaabbbaaa" "aaabbbaaabbbaaa",它的“跳跃”数组如下:
在这里插入图片描述
依然设第一个字符的位置为0,这个数组叫做 n e x t next next

该数组的含义是:如果第 i i i位不匹配,那么就让该匹配位与 n e x t [ i ] next[i] next[i]表示的字符位进行匹配,如此进行,直到遇到 − 1 -1 1时,该匹配位失效,匹配位往下移一个,且指向字符位 0 0 0

当然这个数组还有另一层含义,对数组中每一个元素加上 1 1 1,此时它的含义是前缀串与后缀串最大的相同位数。
举几个例子:
" a a a " "aaa" "aaa"中,前面的 " a a " "aa" "aa"和后面的 " a a " "aa" "aa"相同,最大相同位为 2 2 2,记录在数组的第 2 2 2位。
" a a a b b b a a a " "aaabbbaaa" "aaabbbaaa"中,前面的 " a a a " "aaa" "aaa"和后面的 " a a a " "aaa" "aaa"相同,所以相同位数为 3 3 3,记在数组第 8 8 8位。
" a a a b b b a a a b b b " "aaabbbaaabbb" "aaabbbaaabbb"中,前面的 " a a a b b b " "aaabbb" "aaabbb"和后面的 " a a a b b b " "aaabbb" "aaabbb"相同,所以在第 11 11 11位记上 6 6 6
这也与 n e x t next next数组的建立有关。

由此可以推出当模式串自相似度很低时,基本上每一次跳动都会整体移动,复杂度为线性时间。但是面对高度自相似的模式串,还是会带有一些往前跳动的时间,最坏可能退化为等价于暴力枚举。

在这里插入图片描述

next数组的实现、算法模板

——next数组实现(C++)——
讲完next数组的作用后,现在谈谈 n e x t next next数组的实现
n e x t next next数组的实现基于两个跳动的 “指针” ,实际上也可以看做模式串自己与自己进行匹配,我们另一个“指针” p p p遍历模式串,再用另一个 “指针” k k k往前跳动。
具体流程已经标注在代码中了。

inline void KMP_next()
{
	int l=strlen(s2);
	int k=-1;//k表示前缀串 
	snext[0]=-1;
	for(int p=1;p<l;++p)
	{
		while( k>=0 && s2[p]!=s2[k+1]) k=snext[k];
		//向前回溯到串等长的位置 
		if(s2[p]==s2[k+1]) ++k;
		//这个时候相当于,前缀串指针指在k+1(++k前),后缀串指针应该指在p-snext[k]-1的位置 
		snext[p]=k;
		//这个重合串的长度就是k+1(串从0开始计数,所以是k+1 
	}
}

——KMP算法模板——

#include<iostream>
#include<cstdio>
#include<cstring>
using namespace std;

int snext[101];
char s1[1000006];
char s2[101];

inline void KMP_next()
{
	int l=strlen(s2);
	int k=-1;//k表示前缀串 
	snext[0]=-1;
	for(int p=1;p<l;++p)
	{
		while( k>=0 && s2[p]!=s2[k+1]) k=snext[k];
		//向前回溯到串等长的位置 
		if(s2[p]==s2[k+1]) ++k;
		//这个时候相当于,前缀串指针指在k+1(++k前),后缀串指针应该指在p-snext[k]-1的位置 
		snext[p]=k;
		//这个重合串的长度就是k+1(串从0开始计数,所以是k+1 
	}
}
int main()
{
	scanf("%s %s",s1,s2);
	KMP_next();
	//先预处理next数组,再进行匹配 
	int l1=strlen(s1);
	int l2=strlen(s2);
	int k=-1,p=0;
	while(p<l1&&k<l2)
	{	
		while( k>=0 && s1[p]!=s2[k+1]) k=snext[k]; 
		//发现不匹配,k往前回溯到一个匹配的位置 
		if(s1[p]==s2[k+1]) ++k; 
		//发现匹配 
		else
		{
			//k回溯到-1还是无法匹配,只好向后移动 
			++p;
			++k;
		}
		if(k==l2-1)
		{	//模式串已经匹配完 
			printf("YES\n");
			break;
		}
		++p;
	}
	if(p==l1) printf("NO\n");	
	return 0;
} 
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值