串的模式匹配__BF KMP

串的模式匹配的概念

        子串的定位操作是找子串在主串中从第pos个字符后首次出现的位置,又被称为“串的模式匹配”或“串匹配”。

串的模式匹配算法

朴素的模式匹配算法:BF模式匹配算法(Brute_Force算法),又称蛮力匹配算法。

KMP模式匹配算法(Knuth_Morris_Pratt算法):可以大大避免重复遍历的情况。

BF模式匹配算法

主串为S,模式串为T(⼦串:主串的⼀部分,⼀定存在;模式串——不⼀定能在主串中找到。

思路:

对主串的每一个字符作为子串开头,与要匹配的字符串进行匹配。对主串做大循环,每个字符开头做T的长度的小循环,直到匹配成功或全部遍历完成为止。

从主串S的第pos个字符开始,和模式串T的第一个字符进行比较,若相等,则继续逐个比较后续字符;否则回溯到主串S的第pos+1个字符依次和主串S中的一个连续的字符序列全部相等,则称模式匹配成功,此时返回模式串T的第一个字符在主串S中的位置;否则主串中没有和模式串相等的字符序列,称模式匹配不成功。

//返回子串T在主串中第pos个字符之后的位置,若不存在,则函数返回值为0
//其中,T非空,1<=pos<=StrLength(S)
int Index(String S, String T, int pos)
{
	int i = pos; //用于主串S中当前位置下标值,从pos位置开始匹配
	int j = 1;   //j用于子串T中当前位置下标值
	while(i <= S.len && j <= T.len) //当i小于S的长度并且j小于T的长度时,循环继续
	{
		if (S[i] == T[i]) //两字母相等则继续
		{
			++ i;
			++ j;
		}
		else //指针后退重新匹配
		{
			i = i - j + 2; //i退回到上次匹配首位的下一位
			j = 1;     //j退回子串T的首位
		}
	}
	if (j > T.len)
		return i-T[0];
	else
		return 0;
}

 时间复杂度分析:

1).匹配成功的情况:

a.最好情况即一开始就匹配成功,那么时间复杂度为O(m);

 b.稍微差一些的情况,每次都是首字母不匹配,那么对T串的循环就不必进行了,那么时间复杂度为O(n+m)。时间复杂度为O(n+m),其中主串长度为n,模式串长度为m。根据等概率原则,平均是(n+m)/2次查找,时间复杂度为O(n+m);

 c.最坏的情况是,每次不成功的匹配都发生在串T的最后一个字符,最坏时间复杂度为O((n-m+1)*m)。

2).匹配失败的情况:

a.最好时间复杂度: O(n-m+1) = O(n-m)=O(n);
b.最坏时间复杂度:O(n*m)。

KMP模式匹配算法

KMP算法是由D.E.Knuth,J.H.Morris和V.R.Pratt发表的一个模式匹配算法,可以大大避免重复遍历的情况。

思路:

我们在朴素的模式匹配算法中,主串的i值是不断回溯来完成的,但是这种回溯是可以省略的,KMP模式匹配算法就是让这没必要的回溯不再发生。而i值不回溯,也就是i值不可以变小,所以我们就只考虑j值。并且j值的变化与主串没有关系,关键取决于T串的结构中是否有重复的问题。即j值的大小取决于当前字符之前的串的前后缀相似度。因此在查找字符串前,先对要查找的字符串做一个分析,这样可以大大提高查找的速度。

next数组:

把T串各个位置j值的变化定义为一个next数组,next的长度是T串的长度

 

 如果前后缀n个字符相等k值就是n+1。

 求next数组的代码:

//通过计算返回子串T的next数组
void get_next(String T, int *next)
{
	int i,k;
	i = 1;
	k = 0;
	next[1] = 0;
	while (i < T.len)
	{
		if (k == 0 || T[i] == T[k])
		{
			++ i;
			++ k;
			next[i] = k;
		}
		else k = next[k];
	}
}

 KMP代码实现:

//返回子串T在主串S中第pos个字符之后的位置。若不存在,则返回0 
int Index_KMP(String S, String T, int pos)
{
	int i = pos;
	int j = 1; 
	int next[255];
	get_next(T, next);
	while (i <= S.len && j <= T.len) // 当i小于S的长度并且j小于T的长度时,循环继续 
	{
		if (j == 0 || S[i] == T[j])
		{
			++ i;
			++ j;
		}
		else j = next[j];			//j退回合适的位置,i值不变 
	}
	if (j > T.len)
		return i - T.len;
	else
		return 0;
}

时间复杂度分析:

KMP算法关键就是去掉了i值回溯的部分。对于get_next函数来说,若T的长度为m,因只涉及简单的单循环,其时间复杂度为O(m),而i值的不回溯,使得while循环的时间复杂度为O(n)。所以整个算法的时间复杂度为O(n+m)。值得注意的是,KMP算法仅当模式串与主串之间存在许多“部分匹配”的情况下才体现它的优势,否则两者差异并不明显。

831. KMP字符串

给定一个字符串 S,以及一个模式串 P,所有字符串中只包含大小写英文字母以及阿拉伯数字。

模式串 P 在字符串 S 中多次作为子串出现。

求出模式串 P 在字符串 S 中所有出现的位置的起始下标。

输入格式

第一行输入整数 N,表示字符串 P 的长度。

第二行输入字符串 P。

第三行输入整数 M,表示字符串 S 的长度。

第四行输入字符串 S。

输出格式

共一行,输出所有出现位置的起始下标(下标从 0 开始计数),整数之间用空格隔开。

数据范围

1≤N≤10^5
1≤M≤10^6

输入样例:

3
aba
5
ababa

输出样例:

0 2
#include <bits/stdc++.h>

using namespace std;

const int N = 100010, M = 1000010;

int n, m;
int ne[N];  //next数组
char p[N], s[M];

int main()
{
    cin >> n >> p + 1 >> m >> s + 1;
    
    //求next数组
    for (int i = 2, j = 0; i <= n; i ++)
    {
        while (j && p[i] != p[j + 1]) j = ne[j];
        if (p[i] == p[j + 1]) j ++;
        ne[i] = j;
    }
    
    //kmp
    for (int i = 1, j = 0; i <= m; i ++)
    {
        while (j && s[i] != p[j + 1]) j = ne[j];
        if (s[i] == p[j + 1]) j ++;
        if (j == n)
        {
            printf("%d ", i - n);
            j = ne[j];
        }
    }
    
    return 0;
}

KMP模式匹配算法的改进

总结改进过的KMP算法,它是在计算出next值的同时,如果a位字符与它next值指向的位字符相等,则该a位的nextval就指向b位的nextval值, 如果不等,则该a位的nextval值就是它自己a位的的值。

nextval的求法如下:

void get_nextval(char* t, int* next) 
{
 	int i = 0;
 	int j = -1;
	next[0] = -1;
 	int le = strlen(t);
 	while (i < le-1) {
  		if (j == -1 || t[i] == t[j]) //t[i]表示后缀的单个字符,t[k]表示前缀的单个字符 
		{
   			i ++;
   			j ++;
   			if (t[i] != t[j]) //若当前字符与前缀字符不同,则当前的k为nextval在i位置的值 
    			next[i] = j;
   			else next[i] = next[j];//如果与前缀字符相同,则将前缀字符的nextval值赋值给nextval在i位置的值 
  		}
  		else j = next[j];//若字符不相等,则k回溯 
 	}
}

  • 7
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值