字符串匹配——KMP算法【C语言】

VIP文章爽帅_

已于 2022-06-02 17:32:22 修改

阅读量6.6k

点赞数 10

文章标签： c++ 开发语言 c语言算法

于 2022-04-17 23:29:28 首次发布

本文链接：https://blog.csdn.net/weixin_45423515/article/details/124232548

版权

KMP算法是一种改进的字符串匹配算法，由D.E.Knuth，J.H.Morris和V.R.Pratt提出的，因此人们称它为克努特—莫里斯—普拉特操作（简称KMP算法）。KMP算法的核心是利用匹配失败后的信息，尽量减少模式串与主串的匹配次数以达到快速匹配的目的。具体实现就是通过一个next()函数实现，函数本身包含了模式串的局部匹配信息。KMP算法的时间复杂度O(m+n)

一、暴力算法

int BF(char *chang,char *duan)
{
    int c_strlen=strlen(chang);
    int d_strlen=strlen(duan);
    int c=0,d=0;
    while(c<c_strlen && d<d_strlen){
        if(chang[c]==duan[d]){
            c++;
            d++;
        }
        else{
            c = c - d + 1; //这里要回到开始处，然后下一个字符继续开始匹配所以+1; 
            d = 0;
        }
    }
    return d<d_strlen?-1:c-d;
}

其特点，使用两个指针，一个指向主串，一个指向子串。

如果匹配成功，两个指针往后走一位，继续匹配。

如果匹配失败，主串指针回溯到开始匹配的下一个字符，子串指针回溯到开始的字符。

直到字符串匹配成功，返回开始匹配处的主串下标。

这种算法，其时间复杂度是 O(m*n)。

二、KMP算法

使用BF算法的时候，会发现如果失配，两个指针都要回溯。KMP算法的思想，就是只回溯一个子串指针，主串指针不变。这样KMP算法的时间复杂度就是O(n+m)。

子串指针回溯：

既然知道KMP算法只回溯子串指针，那么如何回溯子串指针呢？这里通过例子讲解。

PS：KMP算法一种子串类型是不足以解释所有的情况，所有下面会使用多种类型的子串进行解析

上图，假设已经匹配到了"流"处，失配进行指针回溯，注意发现。子串部分字符串前面和后面是相同的。

既然前面部分相同，又和主串相匹配。那么这里使用KMP，就能让子串指针直接跳过，已经匹配过的相同的字符，直接从子串的第三个位置"楼"处匹配。

那么问题就来了，子串如何知道，要回溯到"楼"处匹配呢?

这里就需要计算Next[]数组。Next[]数组中存储的就是，子串对应下标位置失配后，指针回溯的位置

计算Next[]数组和原理：

计算Next[]数组，主要是计算子串一个下标位置，前面最长的相同字符串长度。其也叫真前缀和真后缀。

PS：注意这里判断真前后缀时是否相等时，都要以Str[0]处的字符开始，以Str[i-1]处的字符为结束。这里i是匹配失败的位置，也是Next[]的下标。

首先前两个字符是没有前缀和后缀的，所以Next[]数组，第一位和第二位都为固定为0。

最低0.47元/天解锁文章

爽帅_

关注

10
点赞
踩
59

收藏

觉得还不错? 一键收藏
1
评论
字符串匹配——KMP算法【C语言】

KMP算法是一种改进的字符串匹配算法，由D.E.Knuth，J.H.Morris和V.R.Pratt提出的，因此人们称它为克努特—莫里斯—普拉特操作（简称KMP算法）。KMP算法的核心是利用匹配失败后的信息，尽量减少模式串与主串的匹配次数以达到快速匹配的目的。具体实现就是通过一个next()函数实现，函数本身包含了模式串的局部匹配信息。KMP算法的时间复杂度O(m+n)一、暴力算法int BF(char *chang,char *duan){ int c_strlen=strle...
复制链接

扫一扫