串的模式匹配__BF KMP

Zo_ee

已于 2023-08-13 19:46:50 修改

阅读量2.9k

点赞数 7

文章标签：数据结构

于 2022-10-16 21:25:47 首次发布

本文链接：https://blog.csdn.net/zo_ee/article/details/127338995

版权

串的模式匹配的概念

子串的定位操作是找子串在主串中从第pos个字符后首次出现的位置，又被称为“串的模式匹配”或“串匹配”。

串的模式匹配算法

朴素的模式匹配算法：BF模式匹配算法（Brute_Force算法），又称蛮力匹配算法。

KMP模式匹配算法（Knuth_Morris_Pratt算法）：可以大大避免重复遍历的情况。

BF模式匹配算法

主串为S，模式串为T（⼦串：主串的⼀部分，⼀定存在；模式串——不⼀定能在主串中找到。）

思路：

对主串的每一个字符作为子串开头，与要匹配的字符串进行匹配。对主串做大循环，每个字符开头做T的长度的小循环，直到匹配成功或全部遍历完成为止。

从主串S的第pos个字符开始，和模式串T的第一个字符进行比较，若相等，则继续逐个比较后续字符；否则回溯到主串S的第pos+1个字符依次和主串S中的一个连续的字符序列全部相等，则称模式匹配成功，此时返回模式串T的第一个字符在主串S中的位置；否则主串中没有和模式串相等的字符序列，称模式匹配不成功。

//返回子串T在主串中第pos个字符之后的位置，若不存在，则函数返回值为0
//其中，T非空,1<=pos<=StrLength(S)
int Index(String S, String T, int pos)
{
	int i = pos; //用于主串S中当前位置下标值，从pos位置开始匹配
	int j = 1;   //j用于子串T中当前位置下标值
	while(i <= S.len && j <= T.len) //当i小于S的长度并且j小于T的长度时，循环继续
	{
		if (S[i] == T[i]) //两字母相等则继续
		{
			++ i;
			++ j;
		}
		else //指针后退重新匹配
		{
			i = i - j + 2; //i退回到上次匹配首位的下一位
			j = 1;     //j退回子串T的首位
		}
	}
	if (j > T.len)
		return i-T[0];
	else
		return 0;
}

时间复杂度分析：

1).匹配成功的情况：

a.最好情况即一开始就匹配成功，那么时间复杂度为O(m);

b.稍微差一些的情况，每次都是首字母不匹配，那么对T串的循环就不必进行了，那么时间复杂度为O(n+m)。时间复杂度为O(n+m)，其中主串长度为n，模式串长度为m。根据等概率原则，平均是(n+m)/2次查找，时间复杂度为O(n+m);

c.最坏的情况是，每次不成功的匹配都发生在串T的最后一个字符，最坏时间复杂度为O((n-m+1)*m)。

2).匹配失败的情况：

a.最好时间复杂度: O(n-m+1) = O(n-m)=O(n)；
b.最坏时间复杂度：O(n*m)。

KMP模式匹配算法

KMP算法是由D.E.Knuth,J.H.Morris和V.R.Pratt发表的一个模式匹配算法，可以大大避免重复遍历的情况。

思路：

我们在朴素的模式匹配算法中，主串的i值是不断回溯来完成的，但是这种回溯是可以省略的，KMP模式匹配算法就是让这没必要的回溯不再发生。而i值不回溯，也就是i值不可以变小，所以我们就只考虑j值。并且j值的变化与主串没有关系，关键取决于T串的结构中是否有重复的问题。即j值的大小取决于当前字符之前的串的前后缀相似度。因此在查找字符串前，先对要查找的字符串做一个分析，这样可以大大提高查找的速度。

next数组：

把T串各个位置j值的变化定义为一个next数组，next的长度是T串的长度

如果前后缀n个字符相等k值就是n+1。

求next数组的代码：

//通过计算返回子串T的next数组
void get_next(String T, int *next)
{
	int i,k;
	i = 1;
	k = 0;
	next[1] = 0;
	while (i < T.len)
	{
		if (k == 0 || T[i] == T[k])
		{
			++ i;
			++ k;
			next[i] = k;
		}
		else k = next[k];
	}
}

KMP代码实现：

//返回子串T在主串S中第pos个字符之后的位置。若不存在，则返回0 
int Index_KMP(String S, String T, int pos)
{
	int i = pos;
	int j = 1; 
	int next[255];
	get_next(T, next);
	while (i <= S.len && j <= T.len) // 当i小于S的长度并且j小于T的长度时，循环继续 
	{
		if (j == 0 || S[i] == T[j])
		{
			++ i;
			++ j;
		}
		else j = next[j];			//j退回合适的位置，i值不变 
	}
	if (j > T.len)
		return i - T.len;
	else
		return 0;
}

时间复杂度分析：

KMP算法关键就是去掉了i值回溯的部分。对于get_next函数来说，若T的长度为m，因只涉及简单的单循环，其时间复杂度为O(m)，而i值的不回溯，使得while循环的时间复杂度为O(n)。所以整个算法的时间复杂度为O(n+m)。值得注意的是，KMP算法仅当模式串与主串之间存在许多“部分匹配”的情况下才体现它的优势，否则两者差异并不明显。

831. KMP字符串

给定一个字符串 S，以及一个模式串 P，所有字符串中只包含大小写英文字母以及阿拉伯数字。

模式串 P 在字符串 S 中多次作为子串出现。

求出模式串 P 在字符串 S 中所有出现的位置的起始下标。

输入格式

第一行输入整数 N，表示字符串 P 的长度。

第二行输入字符串 P。

第三行输入整数 M，表示字符串 S 的长度。

第四行输入字符串 S。

输出格式

共一行，输出所有出现位置的起始下标（下标从 0 开始计数），整数之间用空格隔开。

数据范围

1≤N≤10^5
1≤M≤10^6

输入样例：
3
aba
5
ababa
输出样例：
0 2

#include <bits/stdc++.h>

using namespace std;

const int N = 100010, M = 1000010;

int n, m;
int ne[N];  //next数组
char p[N], s[M];

int main()
{
    cin >> n >> p + 1 >> m >> s + 1;
    
    //求next数组
    for (int i = 2, j = 0; i <= n; i ++)
    {
        while (j && p[i] != p[j + 1]) j = ne[j];
        if (p[i] == p[j + 1]) j ++;
        ne[i] = j;
    }
    
    //kmp
    for (int i = 1, j = 0; i <= m; i ++)
    {
        while (j && s[i] != p[j + 1]) j = ne[j];
        if (s[i] == p[j + 1]) j ++;
        if (j == n)
        {
            printf("%d ", i - n);
            j = ne[j];
        }
    }
    
    return 0;
}

KMP模式匹配算法的改进

总结改进过的KMP算法，它是在计算出next值的同时，如果a位字符与它next值指向的位字符相等，则该a位的nextval就指向b位的nextval值，如果不等，则该a位的nextval值就是它自己a位的的值。

nextval的求法如下：

void get_nextval(char* t, int* next) 
{
 	int i = 0;
 	int j = -1;
	next[0] = -1;
 	int le = strlen(t);
 	while (i < le-1) {
  		if (j == -1 || t[i] == t[j]) //t[i]表示后缀的单个字符，t[k]表示前缀的单个字符 
		{
   			i ++;
   			j ++;
   			if (t[i] != t[j]) //若当前字符与前缀字符不同，则当前的k为nextval在i位置的值 
    			next[i] = j;
   			else next[i] = next[j];//如果与前缀字符相同，则将前缀字符的nextval值赋值给nextval在i位置的值 
  		}
  		else j = next[j];//若字符不相等，则k回溯 
 	}
}

Zo_ee

关注

7
点赞
踩
24

收藏

觉得还不错? 一键收藏
1
评论
串的模式匹配__BF KMP

对于get_next函数来说，若T的长度为m，因只涉及简单的单循环，其时间复杂度为O(m)，而i值的不回溯，使得while循环的时间复杂度为O(n)。总结改进过的KMP算法，它是在计算出next值的同时，如果a位字符与它next值指向的位字符相等，则该a位的nextval就指向b位的nextval值，如果不等，则该a位的nextval值就是它自己a位的的值。我们在朴素的模式匹配算法中，主串的i值是不断回溯来完成的，但是这种回溯是可以省略的，KMP模式匹配算法就是让这没必要的回溯不再发生。
复制链接

扫一扫