详解KMP算法，理解并记忆KMP

最新推荐文章于 2024-07-23 22:06:37 发布

xia_yu_mao_fa

最新推荐文章于 2024-07-23 22:06:37 发布

阅读量812

点赞数

分类专栏：算法文章标签：算法 kmp c++

本文链接：https://blog.csdn.net/xia_yu_mao_fa/article/details/23856041

版权

算法专栏收录该内容

4 篇文章 0 订阅

订阅专栏

这几天看了很多人讲解的KMP算法，大家说的不太一样，自己总结一个容易理解记忆的思路，彻底搞定KMP算法......!!

KMP算法是解决字符串模式匹配问题。那么首先声明要搜索的字符串为S，长度为n，要匹配的串为M，长度为m。

那么对于直观理解KMP，总结其他人的讲解，总结如下：

先介绍几个概念：

1、前缀、后缀（注意前缀和后缀都是字串，不包括原有完整串）

2、部分匹配表

"部分匹配值"就是"前缀"和"后缀"的最长的共有元素的长度。以"ABCDABD"为例，

　　－　"A"的前缀和后缀都为空集，共有元素的长度为0；

　　－　"AB"的前缀为[A]，后缀为[B]，共有元素的长度为0；

　　－　"ABC"的前缀为[A, AB]，后缀为[BC, C]，共有元素的长度0；

　　－　"ABCD"的前缀为[A, AB, ABC]，后缀为[BCD, CD, D]，共有元素的长度为0；

　　－　"ABCDA"的前缀为[A, AB, ABC, ABCD]，后缀为[BCDA, CDA, DA, A]，共有元素为"A"，长度为1；

　　－　"ABCDAB"的前缀为[A, AB, ABC, ABCD, ABCDA]，后缀为[BCDAB, CDAB, DAB, AB, B]，共有元素为"AB"，长度为2；

　　－　"ABCDABD"的前缀为[A, AB, ABC, ABCD, ABCDA, ABCDAB]，后缀为[BCDABD, CDABD, DABD, ABD, BD, D]，共有元素的长度为0。

所以产生如下部分匹配表：

3、移动步数

如上图所示：M中灰色的部分是已经和S中灰色部分匹配上的，而灰色后是不匹配的，则M向后移动，假设一直向后移动，直到如图位置又和S再一次匹配上了，此时最多能移动多少呢？很简单，就是已经匹配上的长度（即灰色的部分长度）-A（或B）的长度，那么A（或B）的长度就是上面介绍的部分匹配值。所以移动步数 = 已匹配的字符数 - 已匹配的最后一个字符对应的部分匹配值。

读到这里，就应该对KMP算法完全理解了。

上面的讲解是为了理解KMP算法，但是如果按照上面的思路编程，会很复杂，所以编程实现时，我们加一些变化！

next[i]的值表示的是最长前缀的下一个位置。即next[i]的值是最长匹配串的长度。i表示的是[0,...i]的字串。

设j=next[i]，灰色部分表明这两段字符是相等的，如果i位置的字符和j位置的字符相等，那么next[i+1]=j+1;因为前一段灰色部分和j位置的字符组成的字符串和后一段灰色的与i连接所形成的字符串是相等的。这正是前面对next数组的定义。如果不相等，则要找到从i开始包括i往前的一段字符串与从0开始的一段字符串相等，这样形成相等的前缀和后缀。所幸我们知道next[next[i]]的值，因为next[i]前面的字串也有最长的公共前缀和后缀，而这个公共的前缀与现在i以及往前形成的字串可能相等，这样一直向前找，如果找不到，则说明i位置的字符从来没有在之前出现过。

这样求出来的next数组其实是从下标1开始的，因为下标0之前是个空串，下标1则对应着M串的第0个字符。我们设next[0]=-1，仅仅是个标志而已，没有什么特殊的含义。

那么根据前面所述，可以很容易的写出初始化next数组的代码

void getNext(char *str,int *next){
        int len=strlen(str);
        if(len==0){
            return;
        }
        next[0]=0;
        for(int i=1;i<len;i++){
            int j=next[i-1];
            while(j>0&&str[i]!=str[j]){
                j=next[j-1];
            }
            if(str[i]==str[j]){
                next[i]=j+1;
            }else{
                next[i]=0;
            }
        }
    }

知道了了next后，kmp搜索则相对简单了，即如果不匹配就查询next数组即可

int KMP(const char *str, const char *dest) {
	int slen = strlen(str);
	int dlen = strlen(dest);
	int i = 0, j = 0;
	int *next = new int[dlen];
	getNext(dest, next);
	while (i < slen && j < dlen) {
		if ( str[i] == dest[j]) {
			i++;
			j++;
		} else if(j==0){

<span style="white-space:pre">			</span>i++;

<span style="white-space:pre">		</span>}else{
			j = next[j-1];
		}
	}
	if (j == dlen) {
		return i - j;
	} else {
		return -1;
	}
}

KMP算法的时间复杂度为O(n+m)

参考：

http://www.ruanyifeng.com/blog/2013/05/Knuth%E2%80%93Morris%E2%80%93Pratt_algorithm.html

http://chaoswork.com/blog/2011/06/14/kmp%E7%AE%97%E6%B3%95%E5%B0%8F%E7%BB%93/

xia_yu_mao_fa

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
详解KMP算法，理解并记忆KMP

KMP算法是解决字符串模式匹配问题。那么首先声明要sou s
复制链接

扫一扫

专栏目录