字符串经典匹配算法:KMP、Sunday与Shift-And

暴力匹配算法

注:母串=文本串=长串

#include<iostream>
#include<cstdio>
#include<queue>
#include<stack>
#include<algorithm>
#include<string>
#include<map>
#include<set>
#include<vector>
using namespace std;
//字符串匹配值暴力匹配
// bool brute_force(const char *text,const char *pattern){
//     //传入两个参数,一个文本串一个模式串
//     for(int i=0;text[i];++i){
//         int flag = 1;//一开始设置表示能够匹配成功
//         for(int j=0;pattern[j];++j){
//             //如果文本串的i+j位置和模式串的第j位相等了就继续向下判断
//             if(text[i+j] == pattern[j]) continue;
//             //另一种情况就是文本串和模式串相对应的位置不匹配就设定flag=0
//             flag=0;
//             break;
//         }
//         if(flag == 1) return true;
//     }
//     //此时用模式串遍历完模式串的每一个位置都没有匹配的则返回false
//     return false;
// }

//将函数返回值设定为int 可以返回文本串中查找模式串的起始位置在哪
int brute_force(const char *text,const char *pattern){
    //传入两个参数,一个文本串一个模式串
    for(int i=0;text[i];++i){
        int flag = 1;//一开始设置表示能够匹配成功
        for(int j=0;pattern[j];++j){
            //如果文本串的i+j位置和模式串的第j位相等了就继续向下判断
            if(text[i+j] == pattern[j]) continue;
            //另一种情况就是文本串和模式串相对应的位置不匹配就设定flag=0
            flag=0;
            break;
        }
        if(flag == 1) return i;
    }
    //此时用模式串遍历完模式串的每一个位置都没有匹配的则返回false
    return -1;
}
#define TEST(func,s1,s2){\
    printf("%s(%s,%s)=%d\n",#func,s1,s2,func(s1,s2));\
}
int main(){
    char s1[100],s2[100];
    while(cin>>s1>>s2){
        TEST(brute_force,s1,s2);
    }
    return 0;
}
KMP算法:
#include<iostream>
#include<cstdio>
#include<queue>
#include<stack>
#include<algorithm>
#include<string>
#include<map>
#include<set>
#include<vector>
using namespace std;
//字符串匹配值暴力匹配
// bool brute_force(const char *text,const char *pattern){
//     //传入两个参数,一个文本串一个模式串
//     for(int i=0;text[i];++i){
//         int flag = 1;//一开始设置表示能够匹配成功
//         for(int j=0;pattern[j];++j){
//             //如果文本串的i+j位置和模式串的第j位相等了就继续向下判断
//             if(text[i+j] == pattern[j]) continue;
//             //另一种情况就是文本串和模式串相对应的位置不匹配就设定flag=0
//             flag=0;
//             break;
//         }
//         if(flag == 1) return true;
//     }
//     //此时用模式串遍历完模式串的每一个位置都没有匹配的则返回false
//     return false;
// }

//将函数返回值设定为int 可以返回文本串中查找模式串的起始位置在哪
int brute_force(const char *text,const char *pattern){
    //传入两个参数,一个文本串一个模式串
    for(int i=0;text[i];++i){
        int flag = 1;//一开始设置表示能够匹配成功
        for(int j=0;pattern[j];++j){
            //如果文本串的i+j位置和模式串的第j位相等了就继续向下判断
            if(text[i+j] == pattern[j]) continue;
            //另一种情况就是文本串和模式串相对应的位置不匹配就设定flag=0
            flag=0;
            break;
        }
        if(flag == 1) return i;
    }
    //此时用模式串遍历完模式串的每一个位置都没有匹配的则返回false
    return -1;
}

//KMP初始化的关键算法!!!
void GetNext(const char*pattern,int *next){
    next[0]=-1;//如果文本串的第一位和模式串的第一位匹配失败了则模式串的第一位应该跳到-1位 相当于虚拟头结点
    for(int i=1,j=-1;pattern[i];++i){
        while(j!=-1&&pattern[j+1]-pattern[i])j=next[j];
        if(pattern[j+1]==pattern[i])j+=1;
        next[i] = j;
        return ;
    }
}
int kmp(const char *text,const char *pattern){
    int n = strlen(pattern);
    //创建一个数组,作用是如果当前位置匹配不成功的时候我模式串跳到数组的第几位
    int *next = (int *)malloc(sizeof(int)*n);//开的长度应该和模式串的大小是一样的
    GetNext(pattern,next);//初始化next数组
    //接下来开始KMP算法的匹配过程
    for(int i=0,j=-1;text[i];i++){//j这里指向的是绿色区域(上次匹配成功的位置)
        //所以使用j+1位和i位置进行匹配,如果匹配不成功j就要向前跳
        while(j!=-1&&text[i]-pattern[j+1])j = next[j];
        //如果文本串的第i位等于了模式串的第j+1位,j+=1
        if(text[i] == pattern[j+1])j+=1;
        //判断当前是否匹配成功(如果模式串的最后一位(j位置)进入了绿色区域则说明全部模式串匹配成功)
        //判断成功了返回在文本串中模式串匹配成功的第一个位置
        if(pattern[j+1] == 0)return i-j;

    }
    return -1;
}


#define TEST(func,s1,s2){\
    printf("%s(%s,%s)=%d\n",#func,s1,s2,func(s1,s2));\
}
int main(){
    char s1[100],s2[100];
    while(cin>>s1>>s2){
        TEST(brute_force,s1,s2);
        TEST(kmp,s1,s2);
    }
    return 0;
}

KMP算法本质上是一个状态机的转换(来一个i转变一个j的值)最擅长用来处理流数据的转换

Sunday算法:

黄金对齐点位:在模式串和文本串匹配不成功时,文本串的匹配不成功的字符串的后一位与模式串从后向前找第一个与模式串相同字符的对其点位就是黄金点位。
Sunday大多用于查找文章中的单词,最理想时间复杂度为M/N(M为文本串的长度,N为模式串的长度)

#include<iostream>
#include<cstdio>
#include<queue>
#include<stack>
#include<algorithm>
#include<string>
#include<map>
#include<set>
#include<vector>
using namespace std;
//字符串匹配值暴力匹配
// bool brute_force(const char *text,const char *pattern){
//     //传入两个参数,一个文本串一个模式串
//     for(int i=0;text[i];++i){
//         int flag = 1;//一开始设置表示能够匹配成功
//         for(int j=0;pattern[j];++j){
//             //如果文本串的i+j位置和模式串的第j位相等了就继续向下判断
//             if(text[i+j] == pattern[j]) continue;
//             //另一种情况就是文本串和模式串相对应的位置不匹配就设定flag=0
//             flag=0;
//             break;
//         }
//         if(flag == 1) return true;
//     }
//     //此时用模式串遍历完模式串的每一个位置都没有匹配的则返回false
//     return false;
// }

//将函数返回值设定为int 可以返回文本串中查找模式串的起始位置在哪
int brute_force(const char *text,const char *pattern){
    //传入两个参数,一个文本串一个模式串
    for(int i=0;text[i];++i){
        int flag = 1;//一开始设置表示能够匹配成功
        for(int j=0;pattern[j];++j){
            //如果文本串的i+j位置和模式串的第j位相等了就继续向下判断
            if(text[i+j] == pattern[j]) continue;
            //另一种情况就是文本串和模式串相对应的位置不匹配就设定flag=0
            flag=0;
            break;
        }
        if(flag == 1) return i;
    }
    //此时用模式串遍历完模式串的每一个位置都没有匹配的则返回false
    return -1;
}

//KMP初始化的关键算法!!!
void GetNext(const char*pattern,int *next){
    next[0]=-1;//如果文本串的第一位和模式串的第一位匹配失败了则模式串的第一位应该跳到-1位 相当于虚拟头结点
    for(int i=1,j=-1;pattern[i];++i){
        while(j!=-1&&pattern[j+1]-pattern[i])j=next[j];
        if(pattern[j+1]==pattern[i])j+=1;
        next[i] = j;
        return ;
    }
}
int kmp(const char *text,const char *pattern){
    int n = strlen(pattern);
    //创建一个数组,作用是如果当前位置匹配不成功的时候我模式串跳到数组的第几位
    int *next = (int *)malloc(sizeof(int)*n);//开的长度应该和模式串的大小是一样的
    GetNext(pattern,next);//初始化next数组
    //接下来开始KMP算法的匹配过程
    for(int i=0,j=-1;text[i];i++){//j这里指向的是绿色区域(上次匹配成功的位置)
        //所以使用j+1位和i位置进行匹配,如果匹配不成功j就要向前跳
        while(j!=-1&&text[i]-pattern[j+1])j = next[j];
        //如果文本串的第i位等于了模式串的第j+1位,j+=1
        if(text[i] == pattern[j+1])j+=1;
        //判断当前是否匹配成功(如果模式串的最后一位(j位置)进入了绿色区域则说明全部模式串匹配成功)
        //判断成功了返回在文本串中模式串匹配成功的第一个位置
        if(pattern[j+1] == 0)return i-j;

    }
    return -1;
}

//sunday算法记录的是每一种字符在模式串中最后出现的位置
int sunday(const char *text,const char* pattern){
    #define BASE 256
    int n=strlen(text),m,last_pos[BASE];//n表示文本串的长度,m表示模式串的长度,last_pos表示可以表示每一个字节的所有状态
    for(int i=0;i<BASE;i++) last_pos[i] = -1;//开始将每个位置初始化为-1
    for(m = 0;pattern[m];++m){
        last_pos[pattern[m]] = m;
    }
    for(int i=0;i+m<n;i+=(m-last_pos[text[i+m]])){
        int flag = 1;
        for(int j=0;pattern[j];++j){
            if(text[i+j] == pattern[j])continue;
            flag = 0;
            break;
        }
        if(flag) return i;
    }
    return -1;
}


#define TEST(func,s1,s2){\
    printf("%s(%s,%s)=%d\n",#func,s1,s2,func(s1,s2));\
}
int main(){
    char s1[100],s2[100];
    while(cin>>s1>>s2){
        TEST(brute_force,s1,s2);
        TEST(kmp,s1,s2);
        TEST(sunday,s1,s2);
    }
    return 0;
}
Shift-And算法:

将模式串— 预处理—>信息+文本串——>匹配过程
预处理:将模式串处理成二进制数据
时间复杂度为O[n];
此算法底层原理同样设计状态机的转换所以也适合流数据的处理。
适合处理每个字符多种字符同时满足的场景

#include<iostream>
#include<cstdio>
#include<queue>
#include<stack>
#include<algorithm>
#include<string>
#include<map>
#include<set>
#include<vector>
using namespace std;
//字符串匹配值暴力匹配
// bool brute_force(const char *text,const char *pattern){
//     //传入两个参数,一个文本串一个模式串
//     for(int i=0;text[i];++i){
//         int flag = 1;//一开始设置表示能够匹配成功
//         for(int j=0;pattern[j];++j){
//             //如果文本串的i+j位置和模式串的第j位相等了就继续向下判断
//             if(text[i+j] == pattern[j]) continue;
//             //另一种情况就是文本串和模式串相对应的位置不匹配就设定flag=0
//             flag=0;
//             break;
//         }
//         if(flag == 1) return true;
//     }
//     //此时用模式串遍历完模式串的每一个位置都没有匹配的则返回false
//     return false;
// }

//将函数返回值设定为int 可以返回文本串中查找模式串的起始位置在哪
int brute_force(const char *text,const char *pattern){
    //传入两个参数,一个文本串一个模式串
    for(int i=0;text[i];++i){
        int flag = 1;//一开始设置表示能够匹配成功
        for(int j=0;pattern[j];++j){
            //如果文本串的i+j位置和模式串的第j位相等了就继续向下判断
            if(text[i+j] == pattern[j]) continue;
            //另一种情况就是文本串和模式串相对应的位置不匹配就设定flag=0
            flag=0;
            break;
        }
        if(flag == 1) return i;
    }
    //此时用模式串遍历完模式串的每一个位置都没有匹配的则返回false
    return -1;
}

//KMP初始化的关键算法!!!
void GetNext(const char*pattern,int *next){
    next[0]=-1;//如果文本串的第一位和模式串的第一位匹配失败了则模式串的第一位应该跳到-1位 相当于虚拟头结点
    for(int i=1,j=-1;pattern[i];++i){
        while(j!=-1&&pattern[j+1]-pattern[i])j=next[j];
        if(pattern[j+1]==pattern[i])j+=1;
        next[i] = j;
        return ;
    }
}
int kmp(const char *text,const char *pattern){
    int n = strlen(pattern);
    //创建一个数组,作用是如果当前位置匹配不成功的时候我模式串跳到数组的第几位
    int *next = (int *)malloc(sizeof(int)*n);//开的长度应该和模式串的大小是一样的
    GetNext(pattern,next);//初始化next数组
    //接下来开始KMP算法的匹配过程
    for(int i=0,j=-1;text[i];i++){//j这里指向的是绿色区域(上次匹配成功的位置)
        //所以使用j+1位和i位置进行匹配,如果匹配不成功j就要向前跳
        while(j!=-1&&text[i]-pattern[j+1])j = next[j];
        //如果文本串的第i位等于了模式串的第j+1位,j+=1
        if(text[i] == pattern[j+1])j+=1;
        //判断当前是否匹配成功(如果模式串的最后一位(j位置)进入了绿色区域则说明全部模式串匹配成功)
        //判断成功了返回在文本串中模式串匹配成功的第一个位置
        if(pattern[j+1] == 0)return i-j;

    }
    return -1;
}

//sunday算法记录的是每一种字符在模式串中最后出现的位置
int sunday(const char *text,const char* pattern){
    #define BASE 256
    int n=strlen(text),m,last_pos[BASE];//n表示文本串的长度,m表示模式串的长度,last_pos表示可以表示每一个字节的所有状态
    for(int i=0;i<BASE;i++) last_pos[i] = -1;//开始将每个位置初始化为-1
    for(m = 0;pattern[m];++m){
        last_pos[pattern[m]] = m;
    }
    for(int i=0;i+m<n;i+=(m-last_pos[text[i+m]])){
        int flag = 1;
        for(int j=0;pattern[j];++j){
            if(text[i+j] == pattern[j])continue;
            flag = 0;
            break;
        }
        if(flag) return i;
    }
    return -1;
}

int shift_and(const char*text,const char*pattern){
    //第一步现将模式串处理成相关字符的编码
    int code[256]={0};
    int n=0;
    for(n=0;pattern[n];++n)code[pattern[n]] |=(1<<n);
    int p = 0;
    for(int i=0;text[i];i++){
        p=(p<<1|1)&code[text[i]];
        if(p&(1<<(n-1)))return i-n+1;
    }
    return -1;
}

#define TEST(func,s1,s2){\
    printf("%s(%s,%s)=%d\n",#func,s1,s2,func(s1,s2));\
}
int main(){
    char s1[100],s2[100];
    while(cin>>s1>>s2){
        TEST(brute_force,s1,s2);
        TEST(kmp,s1,s2);
        TEST(sunday,s1,s2);
        TEST(shift_and,s1,s2);
    }
    return 0;
}
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值