数据结构学习——字符串

PI Day Infinite & Imagination
14159265358979323846 26433832795028841971 39699375105820974944

1. 什么是串?

串(string) 是由零个或多个字符组成的有限序列, 又名叫字符串。 一般记为 s=“a1a2…an”(n≥0)

  • 空串:零个字符的串 Φ
  • 串的相邻字符之间具有前驱和后继的关系
  • 串中的元素都是 字符

2. 串的比较

  • 串的比较是通过组成串的字符之间的编码来进行的, 而字符的编码指的是字符在对应字符集中的序号。
  • 比较两个串是否相等, 必须是它们串的长度以及它们各个对应位置的字符都相等时, 才算是相等。
  • 串的顺序存储结构是用一组地址连续的存储单元来存储串中的字符序列的。

3. 串的模式匹配

找字串在主串中的定位问题称之为串的模式匹配,是串中最重要的操作之一,而其中最重要的两个方法便是朴素匹配和KMP匹配。

3.1朴素匹配算法

所谓串的朴素匹配算法就是用暴力搜索的方法,遍历循环主串S中的每个字符,与模式串T中的每个字符比较是否相等,找到相等的字串位置并返回,假设有主串S=“abcabefg” , 模式串T=“abcabx”,则用朴素算法第一次匹配过程如下:
在这里插入图片描述
当匹配到T串第6个字符时与主串不匹配,于是开始回溯,从T串的第1个字符和S串的第二字符开始匹配,第一次匹配就失败了,于是又从S串的第3个字符开始如法炮制,直到S串的最后一个字符,具体如下图:

第2次匹配

朴素匹配gif

具体实现算法如下:

  • 值得注意的是匹配失败开始回溯时,为什么是 i - j + 2呢?
  • 推导如下:
    假设i从pos开始进入循环,循环了n次
    则上次匹配首位:pos(上次匹配位置) +1
    n次循环之后
    i = pos + n
    j = 1 + n
    观察上式不难得出有公共项n,i和j之间的差值为常数 pos-1
    故不难得出 下一位字符的位置为:i – j + 2
#include <stdio.h>
#include <stdlib.h>
#include <iostream>
#include <string.h>
#include <time.h>

//#include <string>

using namespace std;

//朴素匹配算法

int Index(char S[],char T[])
{
	cout << S << " " << strlen(S) << endl;
	cout << T << " " << strlen(T) << endl;
	int i = 0;
	int j = 0;
	int S_len = strlen(S);
	int T_len = strlen(T);
	
	while(i < S_len && j < T_len)
	{
		if(S[i] == T[j])
		{
			i++;
			j++;
		}
		else
		{
			i = i - j + 2;
			j = 0;
		}
	}
	
	if(j == T_len)
	{
		return i - T_len + 1;
		printf("i=%d,j=%d/n",i,j);
	}
	else
		return 0;
}



int main(int argc,char** argv)
{
	clock_t start,end;
	char S[] = "efabcabefg";
	char T[] = "abcabx";
	start = clock();
	int pos = Index(S,T);
	end = clock();
	double cost = (double)(end - start)/CLOCKS_PER_SEC;
	printf("匹配到主串的位置是 %d ,耗时:%fs\n",pos,cost);
	return 0;
}

3.2 KMP匹配算法

  • 鉴于朴素匹配算法的低效性, D.E.Knuth、J,H,Morris 和 V.R.Pratt 三位大神共同提出了KMP算法,其思路就是通过消除主串指针的回溯来提高匹配的效率。
  • 其主要流程是通过前缀表来加快回溯过程。
3.2.1 前缀表

在介绍前缀表之前,先介绍一下最大公共前后缀,最大公共前后缀是指一个字符串前缀和后缀最多重复字母的个数,比如"abcab"的最大前后缀就是"ab",即2,那么什么是前缀表呢?前缀表就是一个字符串从开始组成的子串的最大公共前后缀所组成的表,以"abcab"为例子,可将其写成如下格式,然后即可得出其前缀表。
prefixtable1
因为每个人习惯不同,前缀表的写法也不同,但总体思想是回溯到前一个子串所对应的前缀表的位置,通常最后一位的前缀表不用,第一个前缀表里放-1,则"abcab"的前缀表可以表示为:
在这里插入图片描述

3.2.2 前缀表的代码实现

以S="ababaaaba"为例,其前缀表为 prefix = [0,0,1,2,3,1,1,2,3],这是还没有移位的前缀表。
观察其前缀表变化规律,引入变量i来遍历字符串,len来指示前面的字符,当len=0,i=2时,S[i] = S[len]=‘a’,此时最大前后缀为1,也就第一个字符与最后一个字符相同;当len=1,i=3时,S[i] = S[len] = ‘b’,此时最大前后缀为2,因为上一次已经判定最大前后缀为1,故此次子串的第一个字符和倒数第二个字符相同,只需判断新进来的字符和第二字符是否相同,即可得出最大前后缀为多少,若相等,则len++,再更新前缀表,更新规则为len=prefix[len-1],若不相等,则 len 回溯,i不变,具体如下图所示。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
具体实现代码如下:

void get_prefix(char S[],int prefix[])
{
	int n = strlen(S);
	prefix[0] = 0;
	int len = 0;
	int i = 1;
	while(i < n)
	{
		if(S[i] == S[len])
		{
			len++;
			prefix[i] = len;
			i++;
		}
		else
		{
			if(len > 0)
			{
				len = prefix[len-1];
			}
			else  //len=0
			{
				prefix[i] = len;
				i++;
			}
		}
	}
}

实现移位的前缀表代码如下:

void move_prefix_table(int prefix[],int n)
{
	int i;
	for(i = n-1;i>0;i--)
		prefix[i] = prefix[i-1];
	prefix[0] = -1;
}
3.2.3 kmp实现

kmp的整体实现和朴素匹配的一样,只是最后回溯的部分用前缀表查询位置来替代了,具体实现代码如下:

void kmp_search(char S[],char T[])
{
	int n = strlen(S);
	int m = strlen(T);
	int* prefix = (int*)malloc(sizeof(int)*m);
	
	get_prefix(T,prefix);
	printf("S:%s\nT:%s\n",S,T);
	//move prefix table
	move_prefix_table(prefix,m);
	cout<<"Prefix table:"<<endl;
	for (int i=0;i<m;i++)
	{
		cout << prefix[i] << "  ";
	}
	cout << endl;
	
	int i=0,j=0;
	while(i < n)
	{
		if(j == m-1 && S[i] == T[j])
		{
			printf("In S found T at %d\n",i-j);
			j = prefix[j];
		}
		if(S[i] == T[j])
		{
			i++;j++;
		}
		else
		{
			j = prefix[j];
			if(j == -1)
			{
				i++;j++;
			}
		}
	}
}
3.2.4 匹配结果

在这里插入图片描述

kmp完整代码如下:

#include <stdio.h>
#include <stdlib.h>
#include <iostream>
#include <string.h>


using namespace std;

// kmp模式匹配



void get_prefix(char S[],int prefix[])
{
	int n = strlen(S);
	prefix[0] = 0;
	int len = 0;
	int i = 1;
	while(i < n)
	{
		if(S[i] == S[len])
		{
			len++;
			prefix[i] = len;
			i++;
		}
		else
		{
			if(len > 0)
			{
				len = prefix[len-1];
			}
			else  //len=0
			{
				prefix[i] = len;
				i++;
			}
		}
	}
}

void move_prefix_table(int prefix[],int n)
{
	int i;
	for(i = n-1;i>0;i--)
		prefix[i] = prefix[i-1];
	prefix[0] = -1;
}


void kmp_search(char S[],char T[])
{
	int n = strlen(S);
	int m = strlen(T);
	int* prefix = (int*)malloc(sizeof(int)*m);
	
	get_prefix(T,prefix);
	printf("S:%s\nT:%s\n",S,T);

	//move prefix table
	move_prefix_table(prefix,m);
	
	cout<<"Prefix table:"<<endl;
	for (int i=0;i<m;i++)
	{
		cout << prefix[i] << "  ";
	}
	cout << endl;
	
	int i=0,j=0;
	while(i < n)
	{
		if(j == m-1 && S[i] == T[j])
		{
			printf("In S found T at %d\n",i-j);
			j = prefix[j];
		}
		if(S[i] == T[j])
		{
			i++;j++;
		}
		else
		{
			j = prefix[j];
			if(j == -1)
			{
				i++;j++;
			}
		}
	}
}

int main(int argc,char** argv)
{
	char S[] = "sdgababfxf";
	char T[] = "ababf";
	kmp_search(S,T);

	return 0;
}
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值