KMP算法

最新推荐文章于 2024-06-03 11:23:16 发布

csu_xiji

最新推荐文章于 2024-06-03 11:23:16 发布

阅读量251

点赞数 1

分类专栏： KMP

本文链接：https://blog.csdn.net/xiji333/article/details/88614354

版权

KMP 专栏收录该内容

13 篇文章 0 订阅

订阅专栏

先扯一些有的没的：

模式匹配：模式匹配是数据结构中字符串的一种基本运算，给定一个子串，要求在某个字符串中找出与该子串相同的所有子串，这就是模式匹配。(wiki)

串的模式匹配的用处：

1.在给定文本（文本串）中定位给定字符串（模式串） 2.查询模式串在文本串中的出现次数 3.给出字典库中的优先匹配串……

先说一个朴素算法：

Brute force算法(BF算法暴风算法)，是普通的模式匹配算法，BF算法的思想就是将目标串S的第一个字符与模式串T的第一个字符进行匹配，若相等，则继续比较S的第二个字符和 T的第二个字符；若不相等，则比较S的第二个字符和T的第一个字符，依次比较下去，直到得出最后的匹配结果。(时间复杂度最差为O(n*m))

KMP算法：(复杂度O(n+m))

人为来说，BF算法回溯i指针的做法很愚蠢，能不能不回溯i指针，只修改j指针呢？当然可以，这就是KMP算法的核心思想：利用模式串已经部分匹配的信息，在失配后修改j指针的位置，而不用回溯i指针。那么问题的关键就是怎么移动j指针，我们设置一个next数组，next[j]的值就代表着文本串第i个字符与模式串第j个字符失配后，j指针要移动到的位置。设next[j]=k，那么next[j]具有这样的性质：模式串最前面的k个字符和j之前的最后k个字符是相同的。用数学语言表示即：P[0~k-1]=P[j-k~j-1]。(如图)

那么怎么求next数组呢？首先可以令next[0]=-1，这个表示和模式串第一个字符失配的时候j指针要移动到的位置，合理即可。再定义两个指针j=0，k=-1，其中j是用来遍历模式串的，k作为next数组某个位置的值。当k与j失配时，k=next[k]；当k=-1时，说明k(原来的)与j失配了，那么有next[j]=k，当k!=-1，且s[k]==s[j]时，有next[j+1]=k+1(比较关键的一点就是，由s[j]和s[k]的关系，确定下一位也就是next[j+1]的值)；由此我们就可以写出getnext函数，但是还有一个优化的小操作~

我们可以看到这种情况下回溯j指针也是没有意义的。即当P[j]=P[next[j]]的时候，因此就有了优化版本的getnext算法：

void getnext()
{
	int i=0,k=-1;
	Next[0]=-1;
	while(i<m-1)
	{
		if(k==-1||s2[i]==s2[k])
		{
			if(s2[++i]==s2[++k])
				Next[i]=Next[k];
			else
				Next[i]=k;
		}
		else
			k=Next[k];
	}
}

还有KMP算法：(得到模式串在文本串第一次出现的位置)

int kmp()
{
	int i=0,j=0;
	while(i<n&&j<m)
	{
		if(j==-1||s1[i]==s2[j])
			++i,++j;
		else
			j=Next[j];
	}
	if(j==m)
		return i-j+1;
	else
		return -1;
}

另外一个写法：(得到模式串在文本串中出现的次数如AAA在AAAAA中出现了三次分别在位置0 1 2)

void getnext()
{
    int len=strlen(s2);
    Next[0]=-1;
    int j=0,k=-1;
    while(j<len-1)
    {
        if(k==-1||s2[k]==s2[j])
        {
            ++k,++j;
            Next[j]=k;
        }
        else
            k=Next[k];
    }
}

void kmp()
{
    cnt=0;
    int len1=strlen(s1);
    int len2=strlen(s2);
    int i=0,j=0;
    while(i<len1)
    {
        if(j==-1||s1[i]==s2[j])
            ++i,++j;
        else
            j=Next[j];
        if(j==len2)
        {
            ++cnt;
            --i;
            j=Next[j-1];
        }
    }
    printf("%d\n",cnt);
}

可以看出，这种写法的KMP算法是没有进行上面提到的优化的，(因为优化的话反而会得不到正确结果包括下面循环节也是)因此我们要针对题意写出不同的算法~

可能还是有点难以理解，需要大家自己模拟一下过程才能理解的更加深刻~

扩展知识点——循环节：

一个具有循环节的长度为n的字符串，满足：(1)循环节长度=n-next[n]；(2)n%(n-next[n])=0；(下标从0开始初始化next[0]=-1) (3)该循环节出现的次数(循环的次数)为：n/(n-next[n])。

举个例子：

对于字符串：abcabcabcabc

i	0	1	2	3	4	5	6	7	8	9	10	11	12
s	a	b	c	a	b	c	a	b	c	a	b	c	无字符
next	-1	0	0	0	1	2	3	4	5	6	7	8	9
i-next[i]	1	1	2	3	3	3	3	3	3	3	3	3	3

我们忽略next等于-1或者0的情况，那么其余的有循环节的情况都是满足上式的。(注意：这样求解next数组的时候是不用做那个优化操作的) 且从图表我们可以发现，对于i，我们处理出来的是前i位的数据，即[0，i-1]，并不包括i，因此我们要处理出[0，n]的所有情况才正确，所以下面这个getnext和上面的迭代次数是不一样的。

那么当n%(n-next[n])！=0的时候呢？这时候可能存在错位、递推性周期相等的情况，即可能造成不完全循环，且不完全循环的周期依然为n-next[n]。比如对于字符串abcabca

i	0	1	2	3	4	5	6	7
s	a	b	c	a	b	c	a	无字符
next	-1	0	0	0	1	2	3	4
i-next[i]	1	1	2	3	3	3	3	3

若想在该字符串右边补上字符使其完全循环，因为循环节长度为n-next[n]，设其为len，则需要补上：len-n%len个字符。

void getnext()
{
    Next[0]=-1;
    int j=0,k=-1;
    while(j<n)
    {
        if(k==-1||a[j]==a[k])
        {
            ++j,++k;
            Next[j]=k;
        }
        else
            k=Next[k];
    }
}

csu_xiji

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
KMP算法

先扯一些有的没的：模式匹配：模式匹配是数据结构中字符串的一种基本运算，给定一个子串，要求在某个字符串中找出与该子串相同的所有子串，这就是模式匹配。(wiki)串的模式匹配的用处：1.在给定文本（文本串）中定位给定字符串（模式串） 2.查询模式串在文本串中的出现次数 3.给出字典库中的优先匹配串……先说一个朴素算法：Brute force算法(BF算法暴风算法)，是普通的模式...
复制链接

扫一扫

专栏目录