字符串匹配——KMP算法 & regex库

问题描述:给出两个字符串text和pattern,需要判断字符串pattern是否是字符串text的子串。

1 next数组示意图

  • next[i]表示使子串s[0...i]的前缀s[0...k]等于后缀s[i-k....i]的最大的k(注意前缀和后缀可以部分重叠但是不能是 s[0....i] 本身)
  • next[i]就是所求最长相等前后缀中、前缀最后一位的下标。
字符串"ababaab"对应的next数组

 2 分析KMP算法的时间复杂度

KMP算法的时间复杂度分析

例题1——KMP

#include <iostream>
using namespace std;
const int MAXM = 10001;
const int MAXN = 1000001;
int nextTable[MAXM];
int pattern[MAXM];
int text[MAXN];
void GetNextTable(int m) { // 创建next表
    int j=0;
    nextTable[j]=-1;
    int i = nextTable[j];
    while(j<m) {
        if(i==-1 || pattern[j]==pattern[i]) {
            i++;
            j++;
            nextTable[j]=i;
        } else {
            i=nextTable[i];
        }
    }
}
int KMP(int n,int m) {
    GetNextTable(m);
    int i=0,j=0;
    while(i<n&&j<m) {
        if(j==-1||text[i]==pattern[j]) { // 当前字符匹配成功
            i++;
            j++;
        } else {
            j=nextTable[j];   // 当前字符匹配失败
        }
    }
    if(j==m)
        return i-j+1;  // 模式串匹配成功
    else
        return -1;  // 模式串匹配失败
}
int main() {
    int caseNumber;
    cin>>caseNumber;
    while(caseNumber--){
        int n,m;
        cin>>n>>m;
        for(int i=0;i<n;i++)
            cin>>text[i];
        for(int j=0;j<m;j++)
            cin>>pattern[j];
        cout<<KMP(n,m)<<endl;
    }
    return 0;
}

例题2——KMP

poj上用C++测试不会超时,而用g++测试,会超时。

#include <iostream>
#include <cstdio>
#include <string>
using namespace std;
const int MAXM = 10005;
int nextTable[MAXM];
// 创建 next 表
// next 数组定义:当主串与模式串的某一位字符不匹配时,模式串要回退的位置
void GetNextTable(string pattern){
    int m = pattern.size();
    int j = 0;
    nextTable[j]=-1;
    int i = nextTable[j];
    while(j<m){
        if( i==-1 || pattern[j]==pattern[i]){
            i++;
            j++;
            nextTable[j]=i;
        }else{
            i = nextTable[i];
        }
    }
    return ;
}
int KMP(string text, string pattern){
    GetNextTable(pattern);
    int n = text.size();
    int m = pattern.size();
    int i = 0;
    int j = 0;
    int number = 0;  // 记录匹配次数
    while(i<n){
        if(j==-1 || text[i]==pattern[j]){  // 当前字符匹配成功
            i++;
            j++;
        }else{
            j = nextTable[j];  // 当前字符匹配失败
        }
        if(j==m){  // 模式串匹配成功
            number++;
            j = nextTable[j];
        }
    }
    return number;
}
int main()
{
    int caseNumber;
    scanf("%d",&caseNumber);
    while(caseNumber--){
        string pattern, text;
        cin>>pattern>>text;
        printf("%d\n",KMP(text, pattern));
    }
    return 0;
}

例题3——regex库

#include <iostream>
#include <string>
#include <regex>
using namespace std;
string st[1001];
int main () {
    int n;
    while(cin>>n) {
        getchar();
        for (int i=1; i<=n; ++i)
            getline(cin, st[i]);
        getline(cin, st[0]);
        regex r(st[0], regex::icase);  // regex::icase 不区分大小写
        for (int i=1; i<=n; ++i)
            if (regex_match(st[i], r))  // 这是完全匹配,部分匹配用regex_search
                cout << i << ' ' << st[i] << endl;
    }
    return 0;
}

6 进阶——优化next数组

前面求得的next数组存在的不足

前面求得的next数组存在的不足

优化后的next数组被称为nextval数组,它丢失了next数组的最长相等前后缀的含义,却让失配时的处理达到了最优,因此nextval[i]的含义应当理解为当模式串pattern的i+1位发生失配时,i应当回退到的最佳位置

求解nextval数组的参考代码

7 进阶——从有限状态自动机的角度看待KMP算法

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值