字符串匹配——KMP算法【C语言】

KMP算法是一种改进的字符串匹配算法,由D.E.Knuth,J.H.Morris和V.R.Pratt提出的,因此人们称它为克努特—莫里斯—普拉特操作(简称KMP算法)。KMP算法的核心是利用匹配失败后的信息,尽量减少模式串与主串的匹配次数以达到快速匹配的目的。具体实现就是通过一个next()函数实现,函数本身包含了模式串的局部匹配信息。KMP算法的时间复杂度O(m+n)


一、暴力算法

int BF(char *chang,char *duan)
{
    int c_strlen=strlen(chang);
    int d_strlen=strlen(duan);
    int c=0,d=0;
    while(c<c_strlen && d<d_strlen){
        if(chang[c]==duan[d]){
            c++;
            d++;
        }
        else{
            c = c - d + 1; //这里要回到开始处,然后下一个字符继续开始匹配所以+1; 
            d = 0;
        }
    }
    return d<d_strlen?-1:c-d;
}

        其特点,使用两个指针,一个指向主串,一个指向子串。 

        如果匹配成功,两个指针往后走一位,继续匹配。 

         如果匹配失败,主串指针回溯到开始匹配的下一个字符,子串指针回溯到开始的字符。

         

         直到字符串匹配成功,返回开始匹配处的主串下标。

         这种算法,其时间复杂度是 O(m*n)

二、KMP算法

        使用BF算法的时候,会发现如果失配,两个指针都要回溯。KMP算法的思想,就是只回溯一个子串指针,主串指针不变。这样KMP算法的时间复杂度就是O(n+m)。

 子串指针回溯:

        既然知道KMP算法只回溯子串指针,那么如何回溯子串指针呢?这里通过例子讲解。

PS:KMP算法一种子串类型是不足以解释所有的情况,所有下面会使用多种类型的子串进行解析

         

        上图,假设已经匹配到了"流"处,失配进行指针回溯,注意发现。子串部分字符串前面和后面是相同的。  

 

        既然前面部分相同,又和主串相匹配。那么这里使用KMP,就能让子串指针直接跳过,已经匹配过的相同的字符,直接从子串的第三个位置"楼"处匹配。 

        

         

        那么问题就来了,子串如何知道,要回溯到"楼"处匹配呢? 

        这里就需要计算Next[]数组。Next[]数组中存储的就是,子串对应下标位置失配后,指针回溯的位置

计算Next[]数组和原理:  

         计算Next[]数组,主要是计算子串一个下标位置,前面最长相同字符串长度。其也叫真前缀和真后缀。

PS:注意这里判断真前后缀时是否相等时,都要以Str[0]处的字符开始,以Str[i-1]处的字符为结束。这里i是匹配失败的位置,也是Next[]的下标。
          

        首先前两个字符是没有前缀和后缀的,所以Next[]数组,第一位和第二位都为固定为0。

  • 10
    点赞
  • 59
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
KMP算法是一种字符串匹配算法,用于在一个文本串S内查找一个模式串P的出现位置。它的时间复杂度为O(n+m),其中n为文本串的长度,m为模式串的长度。 KMP算法的核心思想是利用已知信息来避免不必要的字符比较。具体来说,它维护一个next数组,其中next[i]表示当第i个字符匹配失败时,下一次匹配应该从模式串的第next[i]个字符开始。 我们可以通过一个简单的例子来理解KMP算法的思想。假设文本串为S="ababababca",模式串为P="abababca",我们想要在S中查找P的出现位置。 首先,我们可以将P的每个前缀和后缀进行比较,得到next数组: | i | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | | --- | - | - | - | - | - | - | - | - | | P | a | b | a | b | a | b | c | a | | next| 0 | 0 | 1 | 2 | 3 | 4 | 0 | 1 | 接下来,我们从S的第一个字符开始匹配P。当S的第七个字符和P的第七个字符匹配失败时,我们可以利用next[6]=4,将P向右移动4个字符,使得P的第五个字符与S的第七个字符对齐。此时,我们可以发现P的前五个字符和S的前五个字符已经匹配成功了。因此,我们可以继续从S的第六个字符开始匹配P。 当S的第十个字符和P的第八个字符匹配失败时,我们可以利用next[7]=1,将P向右移动一个字符,使得P的第一个字符和S的第十个字符对齐。此时,我们可以发现P的前一个字符和S的第十个字符已经匹配成功了。因此,我们可以继续从S的第十一个字符开始匹配P。 最终,我们可以发现P出现在S的第二个位置。 下面是KMP算法C++代码实现:

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值