KMP算法（next数组求法）

五行缺木1

已于 2023-02-27 20:40:32 修改

阅读量2k

点赞数 6

分类专栏：数据结构文章标签：算法数据结构

于 2023-02-27 19:25:54 首次发布

本文链接：https://blog.csdn.net/weixin_51780040/article/details/129245991

版权

数据结构专栏收录该内容

4 篇文章 1 订阅

订阅专栏

KMP算法（next数组求法）

一、KMP概述

KMP算法是一种改进的字符串匹配算法，由D.E.Knuth，J.H.Morris和V.R.Pratt提出的，因此人们称它为克努特—莫里斯—普拉特操作（简称KMP算法）。KMP算法的核心是利用匹配失败后的信息，尽量减少模式串与主串的匹配次数以达到快速匹配的目的。具体实现就是通过一个next()函数实现，函数本身包含了模式串的局部匹配信息。KMP算法的时间复杂度O(m+n)。

二、next数组求解

如图为字符串ch：next[j] = k；那么next[j + 1] = ?。
分两种情况进行讨论：

第一种情况：ch[j] = ch[k]
这种情况最简单，next[j + 1] = next[j] + 1。
很好理解，第 j 个字符之前，能够相匹配的最长的前缀和后缀的长度是 k - 1，则next[j] = k，因为前 k - 1个字符一定是能够配对的，我们在进行再下一次模式匹配的时候，只需要从模式串的第 k 个字符开始。
现在又已知ch[j] = ch[k]，则第j + 1个字符之前，能够进行配对的前缀和后缀中，长度最大的串的长度就是 (k - 1) + 1 = k，同理 next[j + 1] = k + 1 = next[j] + 1。
第二种情况：ch[j] != ch[k]
我们的解决思路是：

首先找到在第 j 个字符之前，第二长的能够匹配的前缀和后缀。
先说结论，第二长的能够配对的前缀和后缀的长度是：next[next[j]] - 1。
为什么呢？如图，设子串 a d 为所谓的第二长的前缀和后缀，a 一定包含在最长的前缀中，d 一定包含在最长的后缀中，我们也一定能够在最长的前缀中找到一个子串 b ，满足 b = d（原因很简单，最长的前缀和后缀是相等的），也就可以得到子串 a = b，很巧，子串 a b 如果相等，那就是第 k 个字符之前的串中，相匹配的前缀和后缀，所以问题就从找第 j 个字符前第二长的相匹配的前缀和后缀，转化为了找第 k 个字符前最长的相匹配的前缀和后缀，所以第 j 个字符之前，第二长的相匹配的前缀和后缀的长度就是 next[k] - 1，而 k = next[j]，所以是next[next[j]] - 1.
之后我们看 ch[next[next[j]]] 和 ch[j]是否相等，如果相等，重复第一种情况，如果不相等，重复第二种情况。

求next数组代码：

//next数组
int* get_next(SString T)
{
	int len = T.length;            //字符串的长度
	int* next = new int[len + 1];  //定义next数组
	next[1] = 0;
	next[2] = 1;                   //前两个值无脑写 0 和 1

	//计算第3及之后字符对应的的next值
	for (int j = 3; j <= len; j++)
	{
		int k = next[j - 1];       //第i - 1个字符对应的next值

		//寻找相匹配的前缀和后缀
		while (k != 0)
		{
			//情况一，第 j 个字符和第 k - 1 个字符相等
			if (T.ch[k] == T.ch[j - 1])
			{
				next[j] = k + 1;
				break;
			}
			//情况二，第 j 个字符和第 k - 1 个字符不相等
			else
			{
				k = next[k];
			}
		}
		//没有相匹配的前缀和后缀，模式串指针回到第一个字符
		if (k == 0)
			next[j] = 1;
	}
	return next;
}

全部代码：

#include<iostream>
using namespace std;

#define MaxSize 10
//穿的顺序存储
struct SString {
	char ch[MaxSize + 1];  //静态数组
	int length;        //串的实际长度
};

//初始化操作
bool InitString(SString& S)
{
	S.length = 0;      //一开始，串的长度是0
	S.ch[0] = '#';
	return 0;
}

//赋值操作
bool StrAssign(SString& S, char ch[])
{
	//判断串是不是达到了最大长度
	int len = strlen(ch);
	int Slen = S.length;
	if (Slen + len > MaxSize)
		return false;
	for (int i = Slen + 1; i < Slen + len + 1; i++)
	{
		S.ch[i] = ch[i - Slen - 1];
		S.length++;
	}
	return true;
}


//next数组
int* get_next(SString T)
{
	int len = T.length;            //字符串的长度
	int* next = new int[len + 1];  //定义next数组
	next[1] = 0;
	next[2] = 1;                   //前两个值无脑写 0 和 1

	//计算第3及之后字符对应的的next值
	for (int j = 3; j <= len; j++)
	{
		int k = next[j - 1];       //第i - 1个字符对应的next值

		//寻找相匹配的前缀和后缀
		while (k != 0)
		{
			//情况一，第 j 个字符和第 k - 1 个字符相等
			if (T.ch[k] == T.ch[j - 1])
			{
				next[j] = k + 1;
				break;
			}
			//情况二，第 j 个字符和第 k - 1 个字符不相等
			else
			{
				k = next[k];
			}
		}
		//没有相匹配的前缀和后缀，模式串指针回到第一个字符
		if (k == 0)
			next[j] = 1;
	}
	return next;
}

//KMP算法
int Index_KMP(SString& S,SString T,int next[])
{
	int i = 1, j = 1;
	while (i <= S.length && j <= T.length)
	{
		//当前字符匹配或者是当前不匹配的字符是第一个字符
		if (j == 0 || S.ch[i] == T.ch[j])
		{
			i++;
			j++;
		}
		//当前字符不匹配，而且不是第一个字符，只需要修改模式串的指针
		else
		{
			j = next[j];
		}
	}
	if (j > T.length)
		return i - T.length;
	else
		return 0;
}



int main()
{
	SString T;
	InitString(T);
	char ch[] = "abcabcd";
	StrAssign(T, ch);
	int* next = get_next(T);
	for (int i = 1; i <= T.length; i++)
	{
		cout << next[i] << endl;
	}


	system("pause");
	return 0;
}

输入：

abcabcd

结果：

0
1
1
1
2
3
4

三、next数组优化

请添加图片描述
如图，当在模式串的第2个位置匹配失败的时候，由next数组可知，第二次匹配将从第1个位置开始匹配，但是存在一个问题，这两个位置的字符都是 a ，所以第2次匹配必然是失败的，所以我们直接跳过这个步骤，让模式串的指针 j 指向在第1个位置匹配失败的情况下，应该指向的位置0；当在第3个位置匹配失败的情况下，按照原先的next数组，模式串的指针应该指向第2个位置，同样，这两个位置相同，下次匹配必然失败，所以我们也跳过这个步骤，指针 j 指向在第 2 个位置匹配失败的情况下应该指向的位置，这个时候，next[2] = 0，所以next[3] = next[2] = 0，以此类推。

next数组优化代码：

//next数组优化nextval数组
int* get_nextval(SString T, int next[])
{
	int* nextval = new int[T.length + 1];
	for (int j = 1; j <= T.length; j++)
	{
		nextval[j] = next[j];
		while (nextval[j] != 0 && T.ch[j] == T.ch[nextval[j]])
		{
			nextval[j] = nextval[nextval[j]];
		}
	}
	return nextval;
}

五行缺木1

关注

6
点赞
踩
21

收藏

觉得还不错? 一键收藏
4
评论
KMP算法（next数组求法）

KMP算法是一种改进的字符串匹配算法，由D.E.Knuth，J.H.Morris和V.R.Pratt提出的，因此人们称它为克努特—莫里斯—普拉特操作（简称KMP算法）。KMP算法的核心是利用匹配失败后的信息，尽量减少模式串与主串的匹配次数以达到快速匹配的目的。具体实现就是通过一个next()函数实现，函数本身包含了模式串的局部匹配信息。KMP算法的时间复杂度O(m+n)。
复制链接

扫一扫