字符串匹配算法总结

 

一、最简单的BF算法

从文本T的第一个字母和模式P的第一个字母匹配,如果不匹配,则从T的第二个字母开始匹配。

int BF(char *str, char *ch)
{
	int len1 = strlen(str);
	int len2 = strlen(ch);
	int i=0,j=0; 
	while (i < len1 && j < len2){
		if (str[i] == ch[j])
		{
			i++;
			j++;
		}
		else{
			i = i - j + 1;
			j = 0;
		}
	}
	if (j>=len2)
		return i-j-1;
	else
		return -1;
}
//或者这样写
int BF(char *str, char* ch)
{
	int i=0;
 	int len1 = strlen(str);
	int len2 = strlen(ch);
	while(i <= len1 - len2)
	{
		int j = 0;
		while (str[i] == ch[j] && j < len2)
		{
			i++;
			j++;
		}
		if (j == len2)
			return i - len2;//到达P的结尾,匹配成功
		i = i - j + 1;//匹配不成功,向右移一个位置
	}
	return -1;//T中剩余的字符比|P|少,匹配失败
}

最坏的情况是“每次比较都在最后一个字符出现不等,每趟最多比较M次,最多比较N-M+1趟,总的比较次数最多为M*(N-M+1)” ,时间复杂性为0(M*N)。
 

二、KMP算法

 1)next[j]数组求解。非常简单,就是求最长真子串。例如:

①ababcabcd的next[j]数组

next[0]=-1;

j = 1:→ab,b前面只有一个a,没有真子串,所以next[1]=0

j = 2:→aba,a前面是ab,没有真子串,next[2]=0

j = 3:→abab,b前面是aba,真子串最大长度为1,next[3]=1

j = 4:→ababc,c前面是abab,真子串最大长度为2,next[4]=2

j = 5:→ababca,a前面是ababc,没有真子串,next[5] = 0

j = 6:→ababcab,b前面是ababca,真子串最大长度为1,next[6] = 1

j = 7:→ababcabc,c前面是ababcab,没有真子串,next[7] = 0

j = 8:→ababcabcd,d前面是ababcabc,没有真子串,next[8] = 0

 

②aaaaaaaaab的next[]数组

next[0]=-1;

j = 1:→aa,b前面是a,没有真子串,所以next[1]=0

j = 2:→aaa,a前面是aa,真子串最大长度为1,next[2]=1

j = 3:→aaaa,a前面是aaa,真子串最大长度为2,next[3]=2

j = 4:→aaaaa,a前面是aaaa,真子串最大长度为3,next[4]=3

j = 5:→aaaaaa,a前面是aaaaa,真子串最大长度为4,next[5] = 4

j = 6:→aaaaaaa,a前面是aaaaaa,真子串最大长度为5,next[6] = 5

j = 7:→aaaaaaaa,a前面是aaaaaaa,真子串最大长度为6,next[7] = 6

j = 8:→aaaaaaaaa,a前面是aaaaaaaa,真子串最大长度为7,next[8] = 7

j = 9:→aaaaaaaaab,b前面是aaaaaaaaa,真子串最大长度为8,next[8] = 8

 

void getNext(char *patt, int *next)
{
	int j = 1, k = 0;
	next[0] = -1;
	next[1] = 0;
	while (j < strlen(patt))
	{
		if (patt[j] == patt[k])
		{
			next[j+1] = k+1;
			j++;
			k++;
		}
		else if (k == 0)
		{
			next[j+1] = 0;
			j++;
		}
		else
			k = next[k];
	}
}


2)KMP模式匹配算法是:

KMP算法解决匹配中哪些主要问题:

A.当字符串比较出现不等时,确定下一趟比较前,应该将P右移多少个字符; 

B. P右移后,应该从哪个字符开始和T中刚才比较时不等的那个字符继续开始比较。

 

int KMP(char *str, char *ch, int next[])
{
	int i=0,j=0;
	int len1 = strlen(str);
	int len2 = strlen(ch);
	while (i<len1 && j < len2)
	{
		if (str[i] == ch[j])
		{
			i++;
			j++;
		}
		else if (j == 0)
			i++;
		else
			j = next[j];
	}
	if (j == len2)
		return i-len2;
	else
		return -1;
}


下面是一个比较完整的程序:

#include<stdio.h>
#include<string.h>
#include<stdlib.h>
FILE *fin=fopen("test.in","r");
FILE *fout=fopen("test.out","w");
char s1[200],s2[200];
int next[200];

int max(int a,int b)
{
    if(a>b) return a;
    return b;
}

void getnext()
{
    memset(next,0,sizeof(next));
    int i=-1,j=0;
    next[0]=-1;
    while(j<strlen(s2))
    {
           if(i==-1||s2[i]==s2[j]){
               i++;  j++;  
               next[j]=i;
           }
           else i=next[i];
    }
}

int KMP()
{
    int i=0,j=0,len1=strlen(s1),len2=strlen(s2);
    while((i<len1)&&(j<len2))
    {
        if(j==-1||s1[i]==s2[j]) {j++;i++;}
        else j=next[j];
    }
    if(j==len2) return i-len2;
    else return -1;
}

int index_KMP()
{
    int i=0,j=0,len1=strlen(s1),len2=strlen(s2),re=0;
    while(i<len1&&j<len2)
    {
                         if(j==-1||s1[i]==s2[j]) {i++;j++;}
                         else j=next[j];
                         re=max(re,j);
    }
    return re;
}

int main()
{
    fscanf(fin,"%s",s1);
    for(int i=1;i<=3;i++)
    {
            fscanf(fin,"%s",s2);
            getnext();
            fprintf(fout,"%d %d\n",KMP(),index_KMP());
    }
    return 0;
}

参考来源:http://www.cppblog.com/suiaiguo/archive/2009/07/16/90237.html


 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值