KMP算法实现

1,前边转载的关于求next数组的文章对next讲解已经比较清楚了。这里只实现代码以及比较一下与数据结构上next数组的异同。

2,实现KMP算法时的关键点是计算next数组以及在求出next数组后,与主字符串匹配过程中,偏移量的更新和模式串指标的更新。

特别当求出一个匹配后,模式串指标的更新应该和前边一样,与next数组有关,而不应该直接置为0,因为若置为0会丢失匹配,

例子:主串:abcabcabc

       模式串:abcabc

若求出一个匹配后,模式串指标直接置为0,而主串指标仍然在位置6上,这时候就丢失了一个匹配了。

同理,当求出一个匹配后,偏移量的更新仍然要和next数组有关,不能直接加上模式串的长度,因为这样会计算错误匹配开始的位置。

例子:主串:abcabcabc

       模式串:abcabc

若求出一个匹配后,偏移量加上模式串长度6,则第二个匹配的开始位置会变成6,而实际上是3.

3,数据结构上next数组的含义与上不同,数据结构上的next[j]表示当模式串j号位置与主串不匹配时,模式串指标应该移动到的位置,即下一个与主串比较的模式串字符位置。

它的求解规则是:

next[1] = 0;

next[2] = 1;

求next[i]则比较模式串next[i-1]值所在位置与模式串i-1位置上的值是否相等,若相等则等于next[i-1]+1;

若不等则看模式串i-1位置上的值是否等于模式串next[next[i-1]]值所在位置值,若相等则等于

next[next[i-1]]+1;若不等则继续下去,终止条件是next[]值必须大于0.

与传统next值的比较:

传统next值:当模式串第q个位置与主串不同时,我们下次与主串比较的模式串字符位置应该是next[q-1]+1;

数据结构上的next值:

当模式串第q个位置与主串不同时,我们下次与主串比较的模式串字符位置应该是next[q];

因此若字符串从1开始时,只要q不等于1,那么传统next值与数据结构书上next值的关系就是:

数据机构next[q] = 传统next[q-1]+1;

若字符串从0开始时,只要q不等于0,也满足这个公式!(这个只是偶然发现!!!

4,下边是实现代码:

// KMP.cpp : 定义控制台应用程序的入口点。
//

#include "stdafx.h"
#include <vector>
#include <string>
#include <fstream>
#include <iostream>
using namespace std;

int* findNextArray(char* p)
{
	if (p == NULL)
	{
		return NULL;
	}
	int length = strlen(p);
	int *next = new int[length];
	int i;
	next[0] = 0;
	int k = 0;//代表i-1位置上的next【】值
	//i是从0号位置开始的,需要注意!!!
	for (i = 1; i < length; i++)
	{
		while (k > 0 && p[k] != p[i])
		{
			k = next[k];
		}
		//若k=0或者找到和p[i]相等的值了
		if (p[k] == p[i])
		{
			k = k + 1;
		}
	    next[i] = k;
	}
	return next;
}
vector<int> Kmp(string T, char* str)//T是文本文档,str是模式
{
	int *next = findNextArray(str);//先找到模式str的next数组
	//然后从头到尾扫描一遍T
	//int length = strlen(T);
	int length = T.length();
	int length1 = strlen(str);
	int i,j;
	vector<int> locate;
	int s = 0;//代表当前偏移量
	for (i = 0, j = 0; i < length && j < length1;)
	{
		if (T[i] == str[j])
		{
			i++;
			j++;
		}
		else
		{
			if (j != 0)
			{
				s = s + (j - next[j - 1]);//计算新的偏移量
				//i = s;//文本T的指标移到新的位置
				//i指标可以不变
				j = next[j - 1];//模式str指标j指向这里避免重复比较
			}
			else
			{
				i++;
				s = s + 1;
			}
		}
		if (j >= length1)
		{
			locate.push_back(s);//记录匹配时的开始位置
			//还需要更新s的值
			//s = s + length1;//不能直接这么求偏移,会计算错误匹配的开始位置
			                  //例子和下边例子一样
			//还是要这么求
			s = s + (j - next[j-1]);
			//j = 0;//这里不能直接等于0,因为会丢失匹配,例子就是主串abcabcabc
			      //和模式串abcabc
			j = next[j - 1];//这样求就不会丢失匹配了
		}
	}
	return locate;
}

int _tmain(int argc, _TCHAR* argv[])
{
	//char p[] = "ababaca"; 
	//char T[] = "bacbababaabcba";
	//char p[] = "abaabcac";
	//char T[] = "acabaabaabcacaabaabcac";
	char p[] = "abcabc";
	char T[] = "abcabcabc";
	//ifstream infile("F:\\DNA.txt");
	//string temp;
	//getline(infile, temp);
	//cout << "长度为" << temp.length() << endl;
	//char p[] = "ATTGT";
	int *a = findNextArray(p);
	for (int i = 0; i < 5; i++)
	{
		cout << a[i] << ' ';
	}
	cout << endl;
	vector<int> b = Kmp(T, p);
	//vector<int> b = Kmp(temp, p);
	cout << "匹配的个数为" << endl;
	cout << b.size() << endl;
	if (!b.empty())
	{
		for (unsigned int i = 0; i < b.size(); i++)
		{
			cout << b[i] << ' ';
		}
	}
	//输出到一个文件中
	//ofstream outfile("F:\\result10.txt");
	//if (!b.empty())
	//{
	//	for (unsigned int i = 0; i < b.size(); i++)
	//	{
	//		outfile << b[i] << endl;
	//	}
	//}
	//outfile.close();
	//infile.close();
	cout << endl;
	system("pause");
	return 0;
}

结果:

0 0 0 1 2

匹配的个数为

2

0 3

请按任意键继续。。。。。


  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
KMP算法(Knuth-Morris-Pratt算法)是一种字符串匹配算法,用于在一个主串中查找一个模式串的出现位置。下面是KMP算法实现示例(使用C语言): ```c #include <stdio.h> #include <string.h> void computeLPSArray(char* pattern, int pattern_length, int* lps) { int len = 0; lps[0] = 0; // lps[0]总是0 int i = 1; while (i < pattern_length) { if (pattern[i] == pattern[len]) { len++; lps[i] = len; i++; } else { if (len != 0) { len = lps[len - 1]; } else { lps[i] = 0; i++; } } } } void KMP(char* text, char* pattern) { int text_length = strlen(text); int pattern_length = strlen(pattern); // 创建并初始化lps数组 int* lps = (int*)malloc(sizeof(int) * pattern_length); computeLPSArray(pattern, pattern_length, lps); int i = 0; // text中的索引 int j = 0; // pattern中的索引 while (i < text_length) { if (pattern[j] == text[i]) { j++; i++; } if (j == pattern_length) { printf("Pattern found at index %d\n", i - j); j = lps[j - 1]; } else if (i < text_length && pattern[j] != text[i]) { if (j != 0) { j = lps[j - 1]; } else { i++; } } } free(lps); } int main() { char text[] = "ABABDABACDABABCABAB"; char pattern[] = "ABABCABAB"; KMP(text, pattern); return 0; } ``` 这是一个简单的KMP算法实现,可以在给定的文本中查找指定的模式串。当找到匹配时,会输出模式串在文本中的起始索引。 注意,在使用这段代码时,需要包含`<stdio.h>`和`<string.h>`头文件,并在编译时链接数学库(例如,使用`-lm`选项)。 希望这个示例能对你有所帮助!如果还有其他问题,请随时提问。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值