KMP算法实现

最新推荐文章于 2021-11-08 20:31:08 发布

dota爱好者

最新推荐文章于 2021-11-08 20:31:08 发布

阅读量472

点赞数 2

分类专栏：校招常考算法文章标签：字符串匹配 KMP

本文链接：https://blog.csdn.net/zzuchengming/article/details/50947800

版权

校招常考算法专栏收录该内容

83 篇文章 2 订阅

订阅专栏

1，前边转载的关于求next数组的文章对next讲解已经比较清楚了。这里只实现代码以及比较一下与数据结构上next数组的异同。

2，实现KMP算法时的关键点是计算next数组以及在求出next数组后，与主字符串匹配过程中，偏移量的更新和模式串指标的更新。

特别当求出一个匹配后，模式串指标的更新应该和前边一样，与next数组有关，而不应该直接置为0，因为若置为0会丢失匹配，

例子：主串：abcabcabc

模式串：abcabc

若求出一个匹配后，模式串指标直接置为0，而主串指标仍然在位置6上，这时候就丢失了一个匹配了。

同理，当求出一个匹配后，偏移量的更新仍然要和next数组有关，不能直接加上模式串的长度，因为这样会计算错误匹配开始的位置。

例子：主串：abcabcabc

模式串：abcabc

若求出一个匹配后，偏移量加上模式串长度6，则第二个匹配的开始位置会变成6，而实际上是3.

3，数据结构上next数组的含义与上不同，数据结构上的next[j]表示当模式串j号位置与主串不匹配时，模式串指标应该移动到的位置，即下一个与主串比较的模式串字符位置。

它的求解规则是：

next[1] = 0;

next[2] = 1;

求next[i]则比较模式串next[i-1]值所在位置与模式串i-1位置上的值是否相等，若相等则等于next[i-1]+1;

若不等则看模式串i-1位置上的值是否等于模式串next[next[i-1]]值所在位置值，若相等则等于

next[next[i-1]]+1；若不等则继续下去，终止条件是next[]值必须大于0.

与传统next值的比较：

传统next值：当模式串第q个位置与主串不同时，我们下次与主串比较的模式串字符位置应该是next[q-1]+1;

数据结构上的next值：

当模式串第q个位置与主串不同时，我们下次与主串比较的模式串字符位置应该是next[q];

因此若字符串从1开始时，只要q不等于1，那么传统next值与数据结构书上next值的关系就是：

数据机构next[q] = 传统next[q-1]+1;

若字符串从0开始时，只要q不等于0，也满足这个公式！（这个只是偶然发现！！！）

4，下边是实现代码：

// KMP.cpp : 定义控制台应用程序的入口点。
//

#include "stdafx.h"
#include <vector>
#include <string>
#include <fstream>
#include <iostream>
using namespace std;

int* findNextArray(char* p)
{
	if (p == NULL)
	{
		return NULL;
	}
	int length = strlen(p);
	int *next = new int[length];
	int i;
	next[0] = 0;
	int k = 0;//代表i-1位置上的next【】值
	//i是从0号位置开始的，需要注意！！！
	for (i = 1; i < length; i++)
	{
		while (k > 0 && p[k] != p[i])
		{
			k = next[k];
		}
		//若k=0或者找到和p[i]相等的值了
		if (p[k] == p[i])
		{
			k = k + 1;
		}
	    next[i] = k;
	}
	return next;
}
vector<int> Kmp(string T, char* str)//T是文本文档，str是模式
{
	int *next = findNextArray(str);//先找到模式str的next数组
	//然后从头到尾扫描一遍T
	//int length = strlen(T);
	int length = T.length();
	int length1 = strlen(str);
	int i,j;
	vector<int> locate;
	int s = 0;//代表当前偏移量
	for (i = 0, j = 0; i < length && j < length1;)
	{
		if (T[i] == str[j])
		{
			i++;
			j++;
		}
		else
		{
			if (j != 0)
			{
				s = s + (j - next[j - 1]);//计算新的偏移量
				//i = s;//文本T的指标移到新的位置
				//i指标可以不变
				j = next[j - 1];//模式str指标j指向这里避免重复比较
			}
			else
			{
				i++;
				s = s + 1;
			}
		}
		if (j >= length1)
		{
			locate.push_back(s);//记录匹配时的开始位置
			//还需要更新s的值
			//s = s + length1;//不能直接这么求偏移，会计算错误匹配的开始位置
			                  //例子和下边例子一样
			//还是要这么求
			s = s + (j - next[j-1]);
			//j = 0;//这里不能直接等于0,因为会丢失匹配，例子就是主串abcabcabc
			      //和模式串abcabc
			j = next[j - 1];//这样求就不会丢失匹配了
		}
	}
	return locate;
}

int _tmain(int argc, _TCHAR* argv[])
{
	//char p[] = "ababaca"; 
	//char T[] = "bacbababaabcba";
	//char p[] = "abaabcac";
	//char T[] = "acabaabaabcacaabaabcac";
	char p[] = "abcabc";
	char T[] = "abcabcabc";
	//ifstream infile("F:\\DNA.txt");
	//string temp;
	//getline(infile, temp);
	//cout << "长度为" << temp.length() << endl;
	//char p[] = "ATTGT";
	int *a = findNextArray(p);
	for (int i = 0; i < 5; i++)
	{
		cout << a[i] << ' ';
	}
	cout << endl;
	vector<int> b = Kmp(T, p);
	//vector<int> b = Kmp(temp, p);
	cout << "匹配的个数为" << endl;
	cout << b.size() << endl;
	if (!b.empty())
	{
		for (unsigned int i = 0; i < b.size(); i++)
		{
			cout << b[i] << ' ';
		}
	}
	//输出到一个文件中
	//ofstream outfile("F:\\result10.txt");
	//if (!b.empty())
	//{
	//	for (unsigned int i = 0; i < b.size(); i++)
	//	{
	//		outfile << b[i] << endl;
	//	}
	//}
	//outfile.close();
	//infile.close();
	cout << endl;
	system("pause");
	return 0;
}

结果：

0 0 0 1 2

匹配的个数为

0 3

请按任意键继续。。。。。

dota爱好者

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
KMP算法实现

1，前边转载的关于求next数组的文章对next讲解已经比较清楚了。这里只实现代码以及比较一下与数据结构上next数组的异同。2，实现KMP算法时的关键点是计算next数组以及在求出next数组后，与主字符串匹配过程中，偏移量的更新和模式串指标的更新。特别当求出一个匹配后，模式串指标的更新应该和前边一样，与next数组有关，而不应该直接置为0，因为若置为0会丢失匹配，例子：主串：abc
复制链接

扫一扫

专栏目录