【数据结构】第四章 串

第四章 串

4.1 串的定义和实现

穿的定义是有零个或者多个字符组成的有限序列,串中字符的个数称为串的长度,n=0的时候串称为空串。串中任意连续的字符组成的子序列称为该串的子串

串和线性表在逻辑结构上十分相似,但是基本操作上有很大区别,线性表的基本操作主要是以单个元素作为操作对象,但是串的基本操作通常以子串作为操作对象。

串的存储结构

1.定长顺序存储表示

类似于线性表的顺序存储结构

#define MAXSIZE 255

typedef struct{

​ char ch[MAXSIZE];

​ int length;}

超过预定一长度的串值会被舍去,称之为截断

2.堆分配存储表示

堆分配存储仍然以一组地址连续的存储单元存放串值的字符序列,但是他们的存储空间是在执行过程中动态分配得到的。

3.块链存储表示

类似于线性表的链式存储结构,也可以采用链表方式存储串值。由于串的特殊性,在具体实现的时候,可以在每个节点存放一个字符或者多个字符。
TIPS:在字符串中,可以将char[0]设定为存储长度的元素,但是最多只能表示255;也可以使用\0表示字符串结尾,但是想要获取长度需要遍历整个串

4.2 串的模式匹配

简单的模式匹配算法

子串的定位操作称为串的模式匹配,其中简单的模式匹配算法是一种不依赖其他串操作的暴力匹配算法。其算法思想是,将主串中和模式串等长的子串全部提取出来,并且依次对比。

暴力模式匹配算法的最坏时间复杂度为O(nm),最好的时间复杂度为O(m),其中n,m分别为主串和模式串的长度。

改进的模式匹配算法——KMP算法

在暴力匹配算法中,每次匹配失败都是后移一位再从头开始比较,但是比如:

在 a b a b c a b c a c 中查找abcac

这会导致一定的重复比较,从而导致效率下降(展开说)

1.字符串的前缀、后缀和部分匹配值

前缀指的是出最后一个字符外所有的头部子串,后缀指的是除第一个字符外字符串的所有尾部子串;部分匹配值为字符串的前缀和后缀的最长相等前后缀长度。

在对比到第k个字符时,如果发生了串不匹配,可以寻找已匹配的串的最大公共前后缀,从而使得不需要重复对比。

在一个有n个字符的串中,可能存在n种匹配失败的情景,对应的是n种部分匹配串。每一种部分匹配串的最大前后缀是固定的,因此可以提前计算出对比到k个字符错配时主串需要前进的步数,并且将其存储在next数组中。这样在KMP算法执行时,可以直接使用

重点:next数组的计算

最长相等前后缀长度可以使得主串不需要回退,故KMP算法可以在O(n+m)的时间数量级上完成串的模式匹配操作,提高了模式匹配效率。其中,O(m)的时间复杂度是在求next数组时产生的,O(n)的时间复杂度是在执行KMP算法时产生的。

总的来说,相对于朴素模式匹配算法,KMP算法能够避免主串指针频繁回溯,从而提高了效率

2.KMP算法的原理是什么

当子串与扫描到的主串不匹配的时候,首先计算出已匹配的子串的前缀和后缀的最大公共子集。然后可以将子串向后移动,将共有前缀移动到原子集的共有后缀处,从而避免重复查找,使得子串不需要回退。

右移位数 = 已匹配的字符数 - 对应的部分字符值

3.KMP算法的进一步优化
KMP算法在对比诸如"aaaab"这类串的时候,还是会出现重复匹配的问题,为了解决而需要在next数组的基础上再进一步处理得到nextval数组。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值