先来打个底
说在前面磨磨唧唧,大佬请跳过!
说KMP一定要先知道串是个什么东西了趴…
串是零个或多个字符组成的有限序列,例子:s=‘a1a2a3…’,单引号里面可以是字母数字其他字符的各种组合。
串中任意个连续的字符组成的子序列成为该串的子串,包含子串的串就叫做主串。
子串在主串中的位置则以子串的第一个字符在主串中的位置来表示。求字串位置的定位函数为 Index(S,T,pos),即找出子串T在主串S中第pos个字符之后的位置。
我们日常用Word文档的查找替换功能时,其实就是变相实施了一次从主串中找子串位置的操作。此定位操作我们叫做串的模式匹配(其中子串T也称为模式串),主串记为主串S。在主串S中找到一个连续字符序列与模式串相等,称为匹配成功,否则称匹配不成功。
BF算法有点暴力
比较容易理解的模式匹配算法在这里!
从主串的第pos个字符开始,与模式串的第一个字符进行比较,如果相等则继续比较后续字符;若不相等,重新从主串pos的下一个字符开始再与模式串的第一个字符比较。
假设最坏的情况,该算法的时间复杂度为O(m*n),即模式串要匹配到主串的最后,期间模式串将不断跳回第一个字符,而主串也要从头开始与之一一比较。这也是他的弊端,在某些情况下,效率极低!
int Index(SString S,SString T,int pos)
{//返回子串T在主串S中第pos个字符之后的位置,若不存在,则函数值为0.
//其中,T非空,1<=pos<=StrLeng(s)
i=pos;j=1;
while(i<=S[0]&&j<=T[0])
{ if(s[i]==T[j]) {++i; ++j;}
else { i=i-j+2; j=1;}//主串pos返回到原pos的下一个字符,模式串返回第一个字符的位置
}
if(j>T[0]) return i-T[0];
else return 0;
}//Index
KMP算法现身说法
比较高效率但是理解起来别别捏捏的算法在这里!消除了主串指针的回溯,不用从头到后依次比较主串了,此算法可以在O(n+m)的时间数量级上完成模式匹配操作!
从主串S的第pos个字符起和模式串的第一个字符比较,相等则继续比较后续字符;否则,则利用已经得到的“部分匹配”结果将模式串向右滑动尽可能远的一段距离,继续比较。
举个例子,如上图,主串的第8个字符,与模式串的第5个字符发生不匹配,根据已经匹配的部分,我们可以将模式串向右滑动3个位置,不用再从主串第4个字符与模式串第1个字符重新匹配,效率增大了!
以下为效率增大后的匹配示意图:
int Index_KMP(SString S,SString T,int pos)
{//利用模式串T的next函数求T在主串S中第pos个字符之后的位置
//的KMP算法,其中T非空,1<=pos<=StrLength(S)
i=pos; j=1;
while(i<=S[0]&&j<=T[0])
{
if(j==1||S[i]==T[j])
{
++i; ++j;
}
else j=next[j];
}
if(j>T[0])
return i-T[0];
else return 0;
}//Index_KMP
有点伤脑筋~
怎样知道此时的字符串到底应该向后移动几位呢?
此时我们可以引进模式串的next函数的定义:令next[j]=k,则next[j]表示当模式串中的第j个字符与主串中相应字符“失配”时,在模式中需要重新和主串中该字符进行比较的位置。
0 当j=0时 | |
---|---|
next[j] = | Max {当 1<k<j 且’p1···p(k-1)’=‘p(j-k+1)···p(j-1)’} |
1 其他情况 |
由此可知此函数值取决于模式串本身。
将第二种情况单独拿出来计算next[j]如下:
设next[j]=k,表明模式串中存在关系’p1···p(k-1)’=‘p(j-k+1)···p(j-1)’,此时的next[j+1]的值可能有两种情况
若pk=pj | next[j+1]=k+1~~next[j+1]=next[j]+1 |
---|---|
若pk≠pj | next[j+1]=1 |
比较简单地来说就是一个无限次循环套娃的过程
要求next[j]的值,设next[j-1]=k,若next[j-1]=next[k],则next[j]=next[j-1]+1;若next[j-1]≠next[k],next[k]=a,next[j-1]≠next[a],这样不等于到最后的next值,则next[j]=最终的不等的那个next值+1。
void get_next(SString T,int next[])
{//求模式串T的next函数并存入数组next
i=1; next[1]=0; j=0;
while(i<T[0])
{
if(j==0||T[i]==T[j])
{
++i; ++j; next[i]=j;
}
else j=next[j];
}//get_next
接下来是来自next函数的进化~
先看一个例子:
如果采用上述next函数计算法进行KMP的向后位移,还是需要将模式串的首个字符依次与主串的前三个字符进行比较,还是有点麻烦了。
实际上,因为模式串的前4个字符都相等,便可以不与主串的前四个字符进行比较,而是将模式串一口气向右滑动4个字符的位置,直接将主串的第5个字符与模式串的第1个字符进行比较。
可以根据next函数值求出其修正值nextval,此时匹配还用KMP算法,可以当作将相等的连续字符看成一个整体。
模式串 | a a a a b |
---|---|
next[j] | 0 1 2 3 4 |
nextval[j] | 0 0 0 0 4 |
void get_nextval(SString S,int nextval[])
{//求模式串T的next函数修正值并存入数组nextval
i=1; nextval[1]=0; j=0;
while(i<T[0])
{
if(j==0||T[i]==T[j])
{
++i; ==j;
if(T[i]!=T[j])
nextval[i]=j;
else nextval[i]=nextval[j];
}
else j=nextval[j];
}
}//get_nextval
已经到这里了如果还是有点懵,再把KMP算法部分从头到尾串一串,相信会有收获的!
好趴好趴~
知道我写的又长又难懂了qwq
大一新生在此,希望大佬可以多多给我指错交流吖~
谢谢大家!