第四章 串
*4.1 串的定义和实现
字符串简称串,计算机上非数值处理的对象基本都是字符串数据。
4.1.1 串的定义
串(string) 是由零个或多个字符组成的有限序列
串中字符的个数n称为串的长度。 n=0时的串称为空串(用∅表示)。
串中任意多个连续的字符组成的子序列称为该串的子串,包含子串的串称为主串。某个字符在串中的序号称为该字符在串中的位置。
子串在主串中的位置以子串的第一个字符在主串中的位置来表示。
当两个串的长度相等且每个对应位置的字符都相等时,称这两个串是相等的。
串是一种特殊的线性表
4.1.2 串的存储结构
- 定长顺序存储表示
#define MAXLEN 255 //预定最大串长255
typedef struct{
char ch[MAXLEN]; //每个分量存储一个字符
int length; //串的实际长度
}SString;
- 堆分配存储表示
typedef struct{
char *ch; //按串长分配存储区,ch指向串的基地址
int length; //串的实际长度
}HString;
- 块链存储表示
4.1.3 串的基本操作
- StrAssign(&T,chars): 赋值操作。把串T赋值为chars。
- StrCopy (&T, S): 复制操作。由串T复制得到串。
- StrEmpty (S): 判空操作。若S为空串,则返回 TRUE, 否则返回 FALSE。
- StrCompare (S, T): 比较操作。若 S>T, 则返回值>0; S=T, 则返回值=0; S<T,则返回值<0。
- StrLength (S) : 求串长。返回串S的元素个数。
- SubString(&Sub,S,pos,len): 求子串。用Sub返回串S的第pos个字符起长度为len的子串。
- Concat(&T,S1,S2): 串联接。用T返回由S1和S2联接而成的新串。
- Index(S,T): 定位操作。若主串S中存在与串T值相同的子串,则返回它在主串S第一次出现的位置;否则函数值为0。
- ClearString(&S): 清空操作。将S消为空串。
- DestroyString (&S): 销毁串。将串S销毁。
4.2 串的模式匹配
4.2.1 简单的模式匹配算法
子串的定位操作通常称为串的模式匹配,它求的是子串(常称模式串)在主串中的位置。
朴素模式匹配算法
算法思想:
①主串长n,模式串长m
②将主串中所有长度为m的子串与模式串对比
③找到第一个与模式串匹配的子串,并返回子串起始位置
④若所有子串都不匹配,则返回0
最坏时间复杂度=O(nm)
若当前子串匹配失败,则主串指针i指向下一个子串的第一个位置,模式串指针j回到模式串的第一个位置
4.2.2 串的模式匹配算法——KMP 算法
根据模式串T,求出next数组——>利用next数组进行匹配(主串指针不回溯)
next数组的作用:当模式串的第j个字符失配时,从模式串的第next[j]的继续往后匹配
任何模式串都一样,第一个字符不匹配时,只能匹配下一个子串,因此,next[1]都无脑写0;第2个字符不匹配时,应尝试匹配模式串的第1个字符,因此,next[2]都无脑写1
其他next:在不匹配的位置前,划一-根美丽的分界线模式串一步一步往后退,直到分界线之前“能对上”,或模式串完全跨过分界线为止。此时j指向哪儿,next数组值就是多少
KMP算法,最坏时间复杂度O(m+n)
其中,求next数组时间复杂度O(m),模式匹配过程最坏时间复杂度O(n)
4.2.3 KMP 算法的进一步优化
前面定义的 next 数组在某些情况下尚有缺陷,还可以进一步优化。如表所示,模式 ‘aaaab’ 在和主串 ‘aaabaaaab’ 进行匹配时:
主串 | a | a | a | b | a | a | a | a | b |
---|---|---|---|---|---|---|---|---|---|
模式串 | a | a | a | a | b | ||||
j | 1 | 2 | 3 | 4 | 5 | ||||
next[j] | 0 | 1 | 2 | 3 | 4 | ||||
nextval[j] | 0 | 0 | 0 | 0 | 4 |
手算解题:先求next数组,再由next数组求nextval数组