KMP算法的next[]数组的求法和理解

最新推荐文章于 2024-07-30 22:42:33 发布

斗锋在干嘛

最新推荐文章于 2024-07-30 22:42:33 发布

阅读量271

点赞数 1

分类专栏：数据结构

本文链接：https://blog.csdn.net/xdf0101/article/details/50018569

版权

数据结构专栏收录该内容

18 篇文章 2 订阅

订阅专栏

KMP算法的关键是next数组的求法

在KMP算法中有个数组，叫做前缀数组，也有的叫next数组，每一个子串有一个固定的next数组，它记录着字符串匹配过程中失配情况下可以向前多跳几个字符，当然它描述的也是子串的对称程度，程度越高，值越大，当然之前可能出现再匹配的机会就更大。

用一个例子来解释，下面是一个子串的next数组的值，可以看到这个子串的对称程度很高，所以next值都比较大。

位置i	0	1	2	3	4	5	6	7	8	9	10	11	12	13	14	15
前缀next[i]	0	0	0	0	1	2	3	1	2	3	4	5	6	7	4	0
子串	a	g	c	t	a	g	c	a	g	c	t	a	g	c	t	g

（1）逐个查找对称串。

这个很简单，我们只要循环遍历这个子串，分别看前1个字符，前2个字符，3个... i个最后到15个。

第1个a无对称，所以对称程度0

前两个ag无对称，所以也是0

依次类推前面0-4都一样是0

前5个agcta，可以看到这个串有一个a相等，所以对称程度为1前6个agctag，看得到ag和ag对成，对称程度为2

（2）回头来找对称性

这里已经不能继承前面了，但是还是找对称成都嘛，最愚蠢的做法大不了写一个子函数，查找这个字符串的最大对称程度，怎么写方法很多吧，比如查找出所有的当前字符串，然后向前走，看是否一直相等，最后走到子串开头，当然这个是最蠢的，我们一般看到的KMP都是优化过的，因为这个串是有规律的。

在这里依然用上面表中一段来举个例子：

位置i=0到14如下,我加的括号只是用来说明问题：

(a g c t a g c )( a g c t a g c) t

我们可以看到这段，最后这个t之前的对称程度分别是：1，2，3，4，5，6，7,倒数第二个c往前看有7个字符对称，所以对称为7。但是到最后这个t就没有继承前面的对称程度next值，所以这个t的对称性就要重新来求。

从上面的理论我们就能得到下面的前缀next数组的求解算法。

void SetPrefix(const char *Pattern, int prefix[])
{
     int len=CharLen(Pattern);//模式字符串长度。
     prefix[0]=0;
     for(int i=1; i<len; i++)
     {
         int k=prefix[i-1];//不断递归判断是否存在子对称，k=0说明不再有子对称，Pattern[i] != Pattern[k]说明虽然对称，但是对称后面的值和当前的字符值不相等，所以继续递推
         while( Pattern[i] != Pattern[k]  &&  k!=0 )               
             k=prefix[k-1];//继续递归
         if( Pattern[i] == Pattern[k])//找到了这个子对称，或者是直接继承了前面的对称性，这两种都在前面的基础上++
              prefix[i]=k+1;
         else
              prefix[i]=0;//如果遍历了所有子对称都无效，说明这个新字符不具有对称性，清0
     }
}

KMP还有一种写法：这个写法是经过优化的：

 int  j = -1,  i = 0;
  next[0] = -1;
  while(i < len)
  {
            if(j == -1 || ss[i] == ss[j])
           {
                     i++;
                     j++;
                     next[i] = j;
          }
          else
         {
                    j = next[j];
         }
 }