扩展KMP

最新推荐文章于 2024-05-30 17:00:00 发布

your_own_name

最新推荐文章于 2024-05-30 17:00:00 发布

阅读量323

点赞数

分类专栏：字符串文章标签： kmp

字符串专栏收录该内容

4 篇文章 0 订阅

订阅专栏

扩展的KMP问题：

给定母串S，和子串T。
定义n=|S|, m=|T|，extend[i]=S[i..n]与T的最长公共前缀长度。请在线性的时间复杂度内，求出所有的extend[1..n]。
容易发现，如果有某个位置i满足extend[i]=m，那么T就肯定在S中出现过，并且进一步知道出现首位置是i——而这正是经典的KMP问题。
因此可见“扩展的KMP问题”是对经典KMP问题的一个扩充和加难。

例子：
S=aaaaaaaaaabaa
T=aaaaaaaaaaa

extend[2]=9。为了计算extend[2]，我们是不是也要进行10次比较运算呢？不然。
因为通过计算extend[1]=10，我们可以得到这样的信息：
S[1..10]=T[1..10]
S[2..10]=T[2..10]。
计算extend[2]的时候，实际上是S[2]开始匹配T。因为S[2..10]=T[2..10]，所以在匹配的开头阶段是“以T[2..10]为母串，T为子串”的匹配。

设辅助函数next[i]表示T[i..m]与T的最长公共前缀长度。
对上述例子，next[2]=10。也就是说：
T[2..11]=T[1..10]
T[2..10]=T[1..9]
S[2..10]=T[1..9]。

下面提出一般的算法。
设extend[1..k]已经算好，并且在以前的匹配过程中到达的最远位置是p。最远位置严格的说就是i+extend[i]-1的最大值，其中i=1,2,3,…,k；不妨设这个取最大值的i是a。(下图黄色表示已经求出来了extend的位置)

注：S[k+1…p]=T[k-a+2…p-a+1]

注：
蓝色部分的下标为k+L+1
k+L<p ==> k+L+1<=p
有S[k+1…k+L+1]=T[k-a+2…k+L-a+2]
如果：S[k+1…k+1+L]=T[1…L+1]
==>T[k-a+2…k+L-a+2]=T[1…L+1]
此时next[k-a+2]=L+1

整个算法描述结束。
上述算法是线性算法。原因如下：
容易看出，在计算的过程中，凡是访问过的点，都不需要重新访问了。一旦比较，都是比较以前从不曾探访过的点开始。因此总的时间复杂度是O(n+m),是线性的。

还剩下一个问题：next[]这个辅助数组怎么计算？复杂度是多少？
我们发现计算next实际上以T为母串、T为子串的一个特殊“扩展的KMP”。用上文介绍的完全相同的算法计算next即可。
HDU 3613

//============================================================================
// Name        : test.cpp
// Author      : Qihan
// Version     :
// Copyright   : Your copyright notice
// Description : Hello World in C++, Ansi-style
//============================================================================

#include <set>
#include <map>
#include <list>
#include <cmath>
#include <ctime>
#include <deque>
#include <queue>
#include <stack>
#include <cctype>
#include <cstdio>
#include <string>
#include <vector>
#include <cassert>
#include <cstdlib>
#include <cstring>
#include <sstream>
#include <iostream>
#include <algorithm>
#define pi acos(-1.0)
using namespace std;
typedef long long int LLI;
typedef pair<LLI,LLI> PII;
#define Lowbit(x) (x & (-x))
const int inf = 0x3f3f3f;
const int maxn = (500000 + 10);


int Next[maxn];

void getNext(char *b,int n){
    Next[0] = n;
    Next[1] = 0;
    for(int i = 1;i < n && b[i] == b[i - 1];i ++)   Next[1] ++;
    int maxi = 1;
    for(int i = 2;i < n;i ++){
        if(Next[i - maxi] + i < Next[maxi] + maxi)  Next[i] = Next[i - maxi];
        else{
            int j = Next[maxi] + maxi - i;
            if(j < 0)   j = 0;
            while(i + j < n && b[j] == b[j + i])  j ++;
            Next[i] = j;
            maxi = i;
        }
    }
}

void exKMP(char *a,char *b,int lena,int lenb,int *extend){
    getNext(b,lenb);
    extend[0] = 0;
    for(int i = 0; i < lenb && i < lena && a[i] == b[i];i ++)   extend[0] ++;
    int maxi = 0;
    for(int i = 1;i < lena; i++){
        if(Next[i - maxi] + i < extend[maxi] + maxi)    extend[i] = Next[i - maxi];
        else{
            int j = extend[maxi] + maxi - i;
            if(j < 0)   j = 0;
            while(i + j < lena && j < lenb && a[i + j] == b[j]) j ++;
            extend[i] = j;
            maxi = i;
        }
    }
}

int aph[30];
char b[maxn];
char a[maxn];
int extend1[maxn];
int extend2[maxn];
int sum[maxn];

int main() {
//    freopen("/home/qihan/Documents/in","r",stdin);
    int t;
    scanf("%d",&t);
    while(t --){
        for(int i = 0; i < 26;i ++)     scanf("%d",&aph[i]);
        scanf("%s",a);
        strcpy(b,a);
        int len = strlen(a);
        reverse(b,b + len);
        exKMP(a,b,len,len,extend1);
        exKMP(b,a,len,len,extend2);
        sum[0] = aph[a[0] - 'a'];
        for(int i = 1;i < len;i ++){
            sum[i] = sum[i - 1] + aph[a[i] - 'a'];
        }
        int ans = 0;
        for(int i = 1; i < len;i ++){
            int it = 0;
            if(extend1[i] == len - i)   it += (sum[len - 1] - sum[i - 1]);
            if(extend2[len - i] == i)   it += sum[i - 1];
            ans = max(ans,it);
        }
        printf("%d\n",ans);
    }
    return 0;
}

your_own_name

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
扩展KMP

扩展的KMP问题：给定母串S，和子串T。定义n=|S|, m=|T|，extend[i]=S[i..n]与T的最长公共前缀长度。请在线性的时间复杂度内，求出所有的extend[1..n]。容易发现，如果有某个位置i满足extend[i]=m，那么T就肯定在S中出现过，并且进一步知道出现首位置是i——而这正是经典的KMP问题。因此可见“扩展的KMP问题”是对经典KMP问题的一个扩充和加难。
复制链接

扫一扫

专栏目录