【大一菜鸟】看了两个周的数据结构KMP?是我太菜我哭了!

先来打个底

在这里插入图片描述
说在前面磨磨唧唧,大佬请跳过!

说KMP一定要先知道是个什么东西了趴…
是零个或多个字符组成的有限序列,例子:s=‘a1a2a3…’,单引号里面可以是字母数字其他字符的各种组合。
中任意个连续的字符组成的子序列成为该串的子串,包含子串的串就叫做主串
子串在主串中的位置则以子串的第一个字符在主串中的位置来表示。求字串位置的定位函数为 Index(S,T,pos),即找出子串T在主串S中第pos个字符之后的位置。

我们日常用Word文档的查找替换功能时,其实就是变相实施了一次从主串中找子串位置的操作。此定位操作我们叫做串的模式匹配(其中子串T也称为模式串),主串记为主串S。在主串S中找到一个连续字符序列与模式串相等,称为匹配成功,否则称匹配不成功

BF算法有点暴力

比较容易理解的模式匹配算法在这里!
从主串的第pos个字符开始,与模式串的第一个字符进行比较,如果相等则继续比较后续字符;若不相等,重新从主串pos的下一个字符开始再与模式串的第一个字符比较。
假设最坏的情况,该算法的时间复杂度为O(m*n),即模式串要匹配到主串的最后,期间模式串将不断跳回第一个字符,而主串也要从头开始与之一一比较。这也是他的弊端,在某些情况下,效率极低

int Index(SString S,SString T,int pos)
{//返回子串T在主串S中第pos个字符之后的位置,若不存在,则函数值为0.
//其中,T非空,1<=pos<=StrLeng(s)
 i=pos;j=1;
 while(i<=S[0]&&j<=T[0])
     {    if(s[i]==T[j])  {++i;  ++j;}
          else { i=i-j+2;  j=1;}//主串pos返回到原pos的下一个字符,模式串返回第一个字符的位置
          }
      if(j>T[0]) return i-T[0];
      else return 0;
      }//Index

KMP算法现身说法

比较高效率但是理解起来别别捏捏的算法在这里!消除了主串指针的回溯,不用从头到后依次比较主串了,此算法可以在O(n+m)的时间数量级上完成模式匹配操作!
从主串S的第pos个字符起和模式串的第一个字符比较,相等则继续比较后续字符;否则,则利用已经得到的“部分匹配”结果将模式串向右滑动尽可能远的一段距离,继续比较。
举个例子
举个例子,如上图,主串的第8个字符,与模式串的第5个字符发生不匹配,根据已经匹配的部分,我们可以将模式串向右滑动3个位置,不用再从主串第4个字符与模式串第1个字符重新匹配,效率增大了!

以下为效率增大后的匹配示意图:
KMP

int Index_KMP(SString S,SString T,int pos)
{//利用模式串T的next函数求T在主串S中第pos个字符之后的位置
 //的KMP算法,其中T非空,1<=pos<=StrLength(S)
 i=pos;   j=1;
 while(i<=S[0]&&j<=T[0])
   { 
       if(j==1||S[i]==T[j])
          {
             ++i;   ++j;
             }
       else j=next[j];
         }
  if(j>T[0])
      return i-T[0];
  else return 0;
  }//Index_KMP

有点伤脑筋~
怎样知道此时的字符串到底应该向后移动几位呢?

此时我们可以引进模式串的next函数的定义:令next[j]=k,则next[j]表示当模式串中的第j个字符与主串中相应字符“失配”时,在模式中需要重新和主串中该字符进行比较的位置。

0 当j=0时
next[j] =Max {当 1<k<j 且’p1···p(k-1)’=‘p(j-k+1)···p(j-1)’}
1 其他情况

由此可知此函数值取决于模式串本身。

将第二种情况单独拿出来计算next[j]如下:
设next[j]=k,表明模式串中存在关系’p1···p(k-1)’=‘p(j-k+1)···p(j-1)’,此时的next[j+1]的值可能有两种情况

若pk=pjnext[j+1]=k+1~~next[j+1]=next[j]+1
若pk≠pjnext[j+1]=1

比较简单地来说就是一个无限次循环套娃的过程
要求next[j]的值,设next[j-1]=k,若next[j-1]=next[k],则next[j]=next[j-1]+1;若next[j-1]≠next[k],next[k]=a,next[j-1]≠next[a],这样不等于到最后的next值,则next[j]=最终的不等的那个next值+1。

void get_next(SString T,int next[])
{//求模式串T的next函数并存入数组next
i=1;  next[1]=0;   j=0;
while(i<T[0])
{
     if(j==0||T[i]==T[j])
     {
         ++i;   ++j;   next[i]=j;
         }
         else j=next[j];
    }//get_next

接下来是来自next函数的进化~
先看一个例子:
111
如果采用上述next函数计算法进行KMP的向后位移,还是需要将模式串的首个字符依次与主串的前三个字符进行比较,还是有点麻烦了。
实际上,因为模式串的前4个字符都相等,便可以不与主串的前四个字符进行比较,而是将模式串一口气向右滑动4个字符的位置,直接将主串的第5个字符与模式串的第1个字符进行比较。
可以根据next函数值求出其修正值nextval,此时匹配还用KMP算法,可以当作将相等的连续字符看成一个整体。

模式串a a a a b
next[j]0 1 2 3 4
nextval[j]0 0 0 0 4
void get_nextval(SString S,int nextval[])
{//求模式串T的next函数修正值并存入数组nextval
  i=1;   nextval[1]=0;   j=0;
  while(i<T[0])
  {
     if(j==0||T[i]==T[j])
     {
        ++i;   ==j;
         if(T[i]!=T[j])
            nextval[i]=j;
         else nextval[i]=nextval[j];
          }
      else    j=nextval[j];
       }
     }//get_nextval

已经到这里了如果还是有点懵,再把KMP算法部分从头到尾串一串,相信会有收获的!

好趴好趴~
知道我写的又长又难懂了qwq
大一新生在此,希望大佬可以多多给我指错交流吖~
谢谢大家!
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小杨哭唧唧

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值