KMP算法

最新推荐文章于 2024-08-24 21:01:27 发布

Rudius guerrerat

最新推荐文章于 2024-08-24 21:01:27 发布

阅读量57

点赞数

文章标签：算法数据结构 c++

本文链接：https://blog.csdn.net/weixin_64710410/article/details/130695327

版权

KMP算法

1、KMP的用处

KMP主要应用在字符串匹配上。KMP的主要思想是当出现字符串不匹配时，可以知道一部分之前已经匹配的文本内容，可以利用这些信息避免从头再去做匹配了。所以如何记录已经匹配的文本内容，是KMP的重点，也是next数组肩负的重任。

2、前缀表

前缀：是指不包含最后一个字符的所有以第一个字符开头的连续子串。

后缀：是指不包含第一个字符的所有以最后一个字符结尾的连续子串

在KMP算法中，“前缀表”（prefix table）也称为"部分匹配表"（partial match table），是一个用于快速匹配的预处理表格。

前缀表是由模式串（pattern）生成的一个数组，数组中每个元素的值表示当前位置之前的子串（不包括最后一个字符）的最长相同前缀和后缀的长度。这个数组可以用于在匹配过程中快速跳过已经匹配的部分。

例如，对于模式串"ABCDABD"，它的前缀表如下所示：

字符串	前缀表
A	0
AB	0
ABC	0
ABCD	0
ABCDA	1
ABCDAB	2
ABCDABD	0

这个前缀表中，第一个元素的值为0，因为一个字符的前缀和后缀相同的长度为0。对于第二个元素"AB"，它的最长相同前缀和后缀的长度为0，因为它的前缀"A"和后缀"B"没有任何重叠部分。对于第五个元素"ABCDA"，它的最长相同前缀和后缀的长度为1，因为它的前缀"A"和后缀"A"重叠了1个字符。对于第六个元素"ABCDAB"，它的最长相同前缀和后缀的长度为2，因为它的前缀"AB"和后缀"AB"重叠了2个字符。

在KMP算法中，利用这个前缀表，可以避免在每次匹配失败时从头开始匹配，而是可以根据前缀表中的值，快速跳过已经匹配的部分，提高匹配效率。

3、 next数组

next数组就可以是前缀表，但是很多实现都是把前缀表统一减一（右移一位，初始位置为-1）之后作为next数组。

next数组是把前缀表的数据记录下来，然后通过特定方式表达出来。

上面的前缀表的next数组为：A B C D A B D

0 0 0 0 1 2 0

4、最长相同前后缀

最长相同前后缀是指一个字符串中，既是前缀又是后缀的最长子串。例如，字符串"abcdabc"的最长相同前后缀为"abc"。在字符串匹配算法中，最长相同前后缀可以用于构建前缀表，以便在匹配过程中快速跳过已经匹配的部分，提高匹配效率。

5、使用next数组去匹配

如果用暴力算法去寻找一个字符串是不是另一个字符串的子串，则需要对母字符串进行遍历，然后在每个字符上依次把母字符串和子字符串进行比较。而使用next数组去匹配，则需在每次母字符串和字符串时，子串无需从头遍历，只需在最长前缀后面的位置开始匹配。因为

前缀和后缀相同，在上次比较到不相同字符时，已经比较过子串的后缀是相同的，所以可以直接跳动前缀后面开始比较。其实每次比较都可以把每个子串的子串来进行这样的处理。直到后缀的长度=子串的长度。

代码演示：

class Solution {
public:
 void GetNext(string &s,int*Next)//建立next数组
      {
        int j=-1;//j为前缀，i为后缀,-1为起始。
        Next[0]=-1;
        for(int i=1;i<s.size();i++)
        {
          while(j>=0&&s[i]!=s[j+1])//前缀和后缀不匹配
          {
            j=Next[j];//返回到next[j]的位置
          }
          if(s[i]==s[j+1])//位置相同
          {
            j++;//都往后加一
          }
          Next[i]=j;//为next[i]数组赋值
        }
      }
      
    int strStr(string haystack, string needle) {
      if(needle.size()==0)
      {
        return 0;
      }
      int Next[needle.size()];
      GetNext(needle,Next);//next数组赋值
      int j=-1;
      for(int i=0;i<haystack.size();i++)
      {
          while(j>=0&&haystack[i]!=needle[j+1])//模式串和文本串不匹配
          {
            j=Next[j];//跳到最长相同前缀后面
          }
          if(haystack[i]==needle[j+1])//相同的模试串和文本串
          {
            j++;//继续往后验证
          }
          if(j==(needle.size()-1))//如果j=needle的长度相同则说明模式串是文本串的子串
          {
            return (i-needle.size()+1);
          }
      }
      return -1;
    }    
};

参考书籍：代码随想录

Rudius guerrerat

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
KMP算法

KMP主要应用在字符串匹配上。KMP的主要思想是当出现字符串不匹配时，可以知道一部分之前已经匹配的文本内容，可以利用这些信息避免从头再去做匹配了。所以如何记录已经匹配的文本内容，是KMP的重点，也是next数组肩负的重任。
复制链接

扫一扫