41、子串查找算法

发现:匹配失败时的右移位数与子串相关,与目标串无关。

移动位数=已匹配的字符数-对应的部分匹配值。

任意子串都存在一个唯一的部分匹配表。

部分匹配表示例PMT

A B C D A B D

0 0 0 0 1 2 0

用法:

BBC ABCDAB ABCDABCDABDE

       ABCDABD

第七位匹配失败->前6位匹配成功->查表PMT[6]->右移位数6-PMT[6]=6-2=4

前缀:除了最后一个字符以外,一个字符串的全部头部组合。

后缀:除了第一个字符以外,一个字符串的全部尾部组合。

部分匹配值:前缀和后缀最长共有元素的长度。(交集的最长长度)

实现关键:PMT[1]=0(下标为0的元素匹配值为0)。

从2个字符开始递推(从下标为1的字符开始递推)。

假设PMT[n]=PMT[n-1]+1(最长共有元素的长度)。

当假设不成立,PMT[n]在PMT[n-1]的基础上减小。

   ababax  ll->前后交集元素的最长长度

0 a            0    (1) 当前ll值通过历史ll值推导

1 ab          0    (2)当可选ll值为0,直接比对首尾元素

2 aba        0+1 (3)

3 abab     1+1 以a为种子向后扩展,比较后边的字符是否相等  

4 ababa   2+1

5 ababax   0      前aba b  后 aba x.  aba的ll值PMT(3)=ll'=1,前 a b, 后a x=》ll'=0.直接比对首尾元素

重叠部分的长度就是当前的ll值,即:3:,PMT(3)的含义是查找3个字符时的ll值,而3个字符时的ll值对应着下标为2的情形,编程实现时注意长度与下标的对应关系。

为什么不是2? 如果是2, 前缀ab,后缀ba 扩展匹配不上。

int* make_pmt(const char* p)
{
int len=strlen(p);
int* ret=static_cast<int*>(malloc(sizeof(int)*len));
if(ret!=NULL)
{
int ll=0;
ret[0]=0;
for(int i=1;i<len;i++)
{
while((ll>0)&&(p[ll]!=p[i]))//连续匹配不上,一直往上推
{
ll=ret[ll-1];
}
if(p[ll]==p[i])//理想情况,扩展字符比对
{
ll++;
}
ret[i]=ll;
}


}
return ret;
}

部分匹配表的使用(KMP算法)

下标j处匹配失败->前j位匹配成功->查表PMT[j-1]->右移位数j-PMT[J-1]

S->BBC ABCDAB ABCDABCDABDE

       P->ABCDABD

有6个字符匹配成功,右移4位,

因为s[i]!=p[j]

所以,查表,ll=PMT[j-1]

于是,右移,i的值不变,j的值改变,j=j-(j-ll)=ll=PMT[J-1]


小结:部分匹配表是提高子串查找效率的关键,部分匹配值定义为前缀和后缀最长共有元素的长度,可以用递推的方法产生部分匹配表,kmp利用部分匹配值与子串移动位数的关系提高查找效率。

#include <iostream>
#include "WSstring.h"
using namespace std;
using namespace WSlib;
int* make_pmt(const char* p)  //o(m)
{
int len=strlen(p);
int* ret=static_cast<int*>(malloc(sizeof(int)*len));
if(ret!=NULL)
{
int ll=0;
ret[0]=0;
for(int i=1;i<len;i++)
{
while((ll>0)&&(p[ll]!=p[i]))//连续匹配不上,一直往上推
{
ll=ret[ll-1];
}
if(p[ll]==p[i])//理想情况,扩展字符比对
{
ll++;
}
ret[i]=ll;
}


}
return ret;
}
int kmp(const char* s,const char* p) //o(n+m)
{
int ret=-1;
int sl=strlen(s);
int pl=strlen(p);
int* pmt=make_pmt(p);
if((pmt!=NULL)&&(0<pl)&&(pl<=sl))
{
for(int i=0,j=0;i<sl;i++)
{
while((j>0) && (s[i]!=p[j]))
{
j=pmt[j-1]; //下次比对的位置
}
if(s[i]==p[j])
{
j++;
}
if(j==pl)
{
ret=i+1-pl;
break;
}


}
}
free(pmt);
return ret;
}
int main()
{
cout<<kmp("ababax"," ")<<endl;
return 0;
}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值