1,前边转载的关于求next数组的文章对next讲解已经比较清楚了。这里只实现代码以及比较一下与数据结构上next数组的异同。
2,实现KMP算法时的关键点是计算next数组以及在求出next数组后,与主字符串匹配过程中,偏移量的更新和模式串指标的更新。
特别当求出一个匹配后,模式串指标的更新应该和前边一样,与next数组有关,而不应该直接置为0,因为若置为0会丢失匹配,
例子:主串:abcabcabc
模式串:abcabc
若求出一个匹配后,模式串指标直接置为0,而主串指标仍然在位置6上,这时候就丢失了一个匹配了。
同理,当求出一个匹配后,偏移量的更新仍然要和next数组有关,不能直接加上模式串的长度,因为这样会计算错误匹配开始的位置。
例子:主串:abcabcabc
模式串:abcabc
若求出一个匹配后,偏移量加上模式串长度6,则第二个匹配的开始位置会变成6,而实际上是3.
3,数据结构上next数组的含义与上不同,数据结构上的next[j]表示当模式串j号位置与主串不匹配时,模式串指标应该移动到的位置,即下一个与主串比较的模式串字符位置。
它的求解规则是:
next[1] = 0;
next[2] = 1;
求next[i]则比较模式串next[i-1]值所在位置与模式串i-1位置上的值是否相等,若相等则等于next[i-1]+1;
若不等则看模式串i-1位置上的值是否等于模式串next[next[i-1]]值所在位置值,若相等则等于
next[next[i-1]]+1;若不等则继续下去,终止条件是next[]值必须大于0.
与传统next值的比较:
传统next值:当模式串第q个位置与主串不同时,我们下次与主串比较的模式串字符位置应该是next[q-1]+1;
数据结构上的next值:
当模式串第q个位置与主串不同时,我们下次与主串比较的模式串字符位置应该是next[q];
因此若字符串从1开始时,只要q不等于1,那么传统next值与数据结构书上next值的关系就是:
数据机构next[q] = 传统next[q-1]+1;
若字符串从0开始时,只要q不等于0,也满足这个公式!(这个只是偶然发现!!!)
4,下边是实现代码:
// KMP.cpp : 定义控制台应用程序的入口点。
//
#include "stdafx.h"
#include <vector>
#include <string>
#include <fstream>
#include <iostream>
using namespace std;
int* findNextArray(char* p)
{
if (p == NULL)
{
return NULL;
}
int length = strlen(p);
int *next = new int[length];
int i;
next[0] = 0;
int k = 0;//代表i-1位置上的next【】值
//i是从0号位置开始的,需要注意!!!
for (i = 1; i < length; i++)
{
while (k > 0 && p[k] != p[i])
{
k = next[k];
}
//若k=0或者找到和p[i]相等的值了
if (p[k] == p[i])
{
k = k + 1;
}
next[i] = k;
}
return next;
}
vector<int> Kmp(string T, char* str)//T是文本文档,str是模式
{
int *next = findNextArray(str);//先找到模式str的next数组
//然后从头到尾扫描一遍T
//int length = strlen(T);
int length = T.length();
int length1 = strlen(str);
int i,j;
vector<int> locate;
int s = 0;//代表当前偏移量
for (i = 0, j = 0; i < length && j < length1;)
{
if (T[i] == str[j])
{
i++;
j++;
}
else
{
if (j != 0)
{
s = s + (j - next[j - 1]);//计算新的偏移量
//i = s;//文本T的指标移到新的位置
//i指标可以不变
j = next[j - 1];//模式str指标j指向这里避免重复比较
}
else
{
i++;
s = s + 1;
}
}
if (j >= length1)
{
locate.push_back(s);//记录匹配时的开始位置
//还需要更新s的值
//s = s + length1;//不能直接这么求偏移,会计算错误匹配的开始位置
//例子和下边例子一样
//还是要这么求
s = s + (j - next[j-1]);
//j = 0;//这里不能直接等于0,因为会丢失匹配,例子就是主串abcabcabc
//和模式串abcabc
j = next[j - 1];//这样求就不会丢失匹配了
}
}
return locate;
}
int _tmain(int argc, _TCHAR* argv[])
{
//char p[] = "ababaca";
//char T[] = "bacbababaabcba";
//char p[] = "abaabcac";
//char T[] = "acabaabaabcacaabaabcac";
char p[] = "abcabc";
char T[] = "abcabcabc";
//ifstream infile("F:\\DNA.txt");
//string temp;
//getline(infile, temp);
//cout << "长度为" << temp.length() << endl;
//char p[] = "ATTGT";
int *a = findNextArray(p);
for (int i = 0; i < 5; i++)
{
cout << a[i] << ' ';
}
cout << endl;
vector<int> b = Kmp(T, p);
//vector<int> b = Kmp(temp, p);
cout << "匹配的个数为" << endl;
cout << b.size() << endl;
if (!b.empty())
{
for (unsigned int i = 0; i < b.size(); i++)
{
cout << b[i] << ' ';
}
}
//输出到一个文件中
//ofstream outfile("F:\\result10.txt");
//if (!b.empty())
//{
// for (unsigned int i = 0; i < b.size(); i++)
// {
// outfile << b[i] << endl;
// }
//}
//outfile.close();
//infile.close();
cout << endl;
system("pause");
return 0;
}
结果:
0 0 0 1 2
匹配的个数为
2
0 3
请按任意键继续。。。。。