KMP算法

本文详细介绍了KMP算法的工作原理,通过避免重复比较已匹配的字符来提升字符串匹配效率。KMP算法通过构造nxt数组记录模式串的前后相等部分,实现失配时快速定位新起始位置,从而达到线性时间复杂度。文章还给出了模式串自我匹配和KMP主串匹配的代码实现。
摘要由CSDN通过智能技术生成

导入

使用朴素算法解决字符串问题时,是从主串第一次与模式串开始匹配的位置逐一验证是否能够匹配,如果不匹配,则继续向后搜寻开始匹配的位置,再次验证,依次重复直到扫描完整个主串。然而,该种匹配模式存在最坏情况,例如:主串aaaaaaab与模式串aaaaab,设主串的长度为n,模式串的长度为m,则此时的时间复杂度达到了O(nm),即使不在最坏情况,它的时间复杂度也很高,是不能处理大部分的字符串匹配问题的。为解决此问题,我们将学习一种能在线性的时间内完成对字符串的匹配的算法——KMP。

KMP算法的思想

思考如下问题:是否在每次字符串匹配失配的时候,都只能将模式串向后移动一位然后从头开始匹配?例如:主串abababaaba、模式串ababacb,从头开始匹配时,到第6个位置时主串为b模式串为c,失配(红字处)。

主串abababaaba
模式串ababacb

     向后移动1位,并从头开始比较(红字处):

主串abababaaba
模式串ababacb

      然而实际上我们能直接将模式串移动到如下位置,且不用从头开始比较,而是从红字处开始:

主串abababaaba
模式串ababacb

为什么?仔细观察失配位置前的模式串子串:ababa,有没有发现它的特点?当然,你可能会说它是回文的,但是这只是我举出的例子较为特殊,我们换一个来看:abacdaba,这次有没有看出它的特点来呢?实际上,我将它的特殊之处标红就十分明显了:abacdaba,那就是它的前后有部分子串是相等的。相等意味着什么?我们要知道,这个子串是在失配位置之前的,也就是它与主串的一部分是已经匹配了的,由此我们能得到:该模式串的前面这部分也与主串的部分是相等的。于是,就可以直接将模式串的前面这部分移动到该主串部分的位置,而且又因为它们是匹配过的,所以直接从下一个位置匹配就可以了。通过这种匹配方式,KMP算法大大缩短了匹配的时间复杂度。

不过,目前还存在一个问题:那就是,想要知道每次失配时模式串该移动的位置,我们需要事先将模式串前后相等的部分求出来。我们用一个数组nxt来保存模式串前后相等的信息,即nxt[j]等于使得模式串[1~k]=模式串[j-k+1~j]的k最大值。要求解模式串每个位置上的nxt[j]值,我们可以利用模式串自我匹配来实现。

ababacb
ababacb
ababacb
ababacb

首位字符的nxt值一定为0,因为在首位失配,下一次匹配模式串将向后移动1位,并从头开始比较,这正好与nxt[1]=0的情形是一样的。自我匹配中,令“主串”的指针为i,“模式串”的指针为j(此处的“主串”与“模式串”是针对上文的模式串的自我匹配来说的),nxt[i]的值就等于它最多能匹配的“模式串”的j值,例如上面表格中nxt[2]=0、nxt[3]=1、nxt[4]=2、nxt[5]=3等等。

模式串自我匹配的代码如下:

char A[N];//主串
char B[N];//模式串
//无论是主串A还是模式串B下标都是从1开始,因为我们比较的都是i+1、j+1的位置,i=j=0时就代表比较首位
void pretreatment(int m){//m为模式串的长度
    nxt[1]=0;
    int j=0;
    for(int i=1;i<m;++i){
        //失配时,不是向后移动一位,而是根据nxt值移动
        while(j>0 && B[j+1]!=B[i+1])  j=nxt[j];
        if(B[j+1]==B[i+1]) ++j;
        //nxt[i]的值就等于它最多能匹配的“模式串”的j值,因为比较的是i+1、j+1的位置所以数组的下标是i+1,而j已经在上一行代码里++了
        nxt[i+1]=j;
    }
}

KMP算法的主串与模式串匹配代码如下:

int kmp() {
	int ans=0, j=0;
	for (int i=0; i<n; ++i) {
	    while (j>0 && B[j+1]!=A[i+1])   j=nxt[j];
		if (B[j+1] == A[i+1])	++j;
		if (j == m) {//j到达模式串的末尾就说明匹配成功
			ans++;
            j = nxt[j]; //该模式串有可能不止在主串中出现一次
		    printf("匹配成功:%d\n", i + 2 - m);//匹配成功打印模式串在主串中出现的位置
		}
	}
	return ans; //返回该模式串共在主串中出现了多少次
}
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值