基本概念
定义(逻辑结构)
串,即字符串(String)是由零个或多个字符组成的有限序列,一般记为:
S
=
′
a
1
a
2
.
.
.
.
.
.
a
n
′
(
n
>
=
0
)
S = 'a_1a_2......a_n'(n>=0)
S=′a1a2......an′(n>=0)
其中,S是串名,单引号括起来的字符序列是串的值:
a
i
a_i
ai可以是字母、数字或其他字符;串中字符的个数n称为串的长度。n = 0时的串称为空串。
注:有的地方用双引号(如Java、C),有的地方用单引号(如Python)。
子串:串中任意个连续的字符组成的子序列。
主串:包含在子串的串
字符在主串中的位置:字符在串中的序号(编号是从1开始的,字符第一次出现的位置)
子串在主串中的位置:子串的第一个字符在主串中的位置
空串:什么也没有
空格串:由空格字符组成的串,每个空格占1B
串是一种特殊的线性表,数据元素之间呈线性关系。
串的数据对象限定为字符集(如中文字符、英文字符、数字字符、标点字符等)
基本操作(运算)
串的基本操作,如增删改查等通常以子串为操作对象。
赋值操作:把串T赋值为chars,StrAssign(&T, chars)
复制操作:由串S复制得到串T,StrCopy(&T, S)
判空操作:若S为空串,则返回TRUE,否则返回FALSE,StrEmpty(S)
求串长:返回串S的元素个数,StrLength(S)
清空操作:将S清为空串,ClearString(&S)
销毁串:将串S销毁(回收存储空间),DestroyString(&S)
串连接:用T返回由S1和S2连接而成的新串,Concat(&T,S1,S2)
求子串:用Sub返回串S的第pos个字符起长度为len的子串,SubString(&Sub,S pos, len)
定位操作:若主串S中存在鱼串T值相同的子串,则返回它在主串S中第一次出现的位置;否则函数值为0,Index(S,T)
比较操作:若S>T,则返回值>0;若S = T,则返回值= 0;若S<T,则返回值<0,StrCompare(S,T)——从第一个字符开始往后依次对比,先出现更大字符的串就更大;长串的前缀与短串相同时,长串更大;只有两个串完全相同时,才相等
存储空间扩展,需要设计一个易于扩展的结构。
字符集:
英文字符——ASCII字符集
中英文——Unicode字符集
存储结构
顺序存储
定义静态数组,存储串
分配连续的存储空间
#define MAXLEN 255
//使用静态数组实现(定长顺序存储)
typedef struct{
char ch[MAXLEN]; //每个分量存储一个字符
int length; //串的实际长度
}SString;
//使用动态数组实现(堆分配存储)
typedef struct {
char *ch; //按串长分配存储区,ch指向串的基地址
int length; //串的长度
} HString;
//用完需要手动free
S.ch = (char *)malloc(MAXLEN * sizeof(char));
S.length = 0;
链式存储
该结构存储密度低(一个字符1B,但一个指针需要4B)
typedef struct StringNode{
char ch; //每个结点存1个字符
struct StringNode * next;
}StringNode, * String
解决方法:可以让每个结点存多个字符
typedef struct StringNode{
char ch[4]; //每个结点存1个字符
struct StringNode * next;
}StringNode, * String
基于顺序存储实现基本操作
- SubString(&Sub,S,pos,len):求子串。用Sub返回串S的第pos个字符起长度为len的子串
bool SubString(SString &Sub, SString S, int pos, int len) {
if (pos+len-1 > S.length)
return false;
for (int i = 0pos; i < pos+len; i++) {
Sub.ch[i-pos+1] = S.ch[i];
Sub.length = len;
return true;
}
}
- StrCompare(S,T):比较操作
int StrCompare(SString S, SString T) {
for (int i = 1; i <= S.length && i <=T.length; i++) {
if(S.ch[i] != T.ch[i])
return S.ch[i] - T.ch[i];
}
return S.length - T.length;
}
- Index(S,T):定位操作。若主串S中存在与串T值相同的子串,则返回它在主串S中第一次出现的位置
int Index(SString S, SString T) {
int i = 1, n = StrLength(S),m = StrLength(T);
SString sub; //用于暂存子串
while(i <= n-m+1) {
SubString(sub,S,i,m);
if(StrCompare(sub, T) != 0)
++i;
else
return i; //返回子串在主串中的位置
}
return 0; //S中不存在与T相等的子串
}
朴素模式匹配算法
什么是模式匹配
主串:S = ‘wangdao’
子串:‘wang’、‘ang’、‘ao’……(一定是主串中存在的才叫“子串”)
模式串:‘gda’、‘bao’(想尝试在主串中找到的串,未必存在)
串的模式匹配:在主串中找到与模式串相同的子串,并返回其所在的位置
相当于定位操作
算法思想
将主串与模式串长度相同的子串搞出来,挨个与模式串对比;
当子串与模式串谋哥对应字符不匹配时,就立即放弃当前子串,转而检索下一个子串
int Index(SString S, SString T) {
int k = 1;
int i = k, j = 1;
while(i <= S.length && j <= T.length) {
if(S.ch[i] == T.ch[j]) {
++i;
++j;
} else {
k++;
j = k;
j = 1;
}
}
if(j > T.length)
return k;
else
return 0;
}
性能分析
较好的情况:每个子串第一个字符就与模式串不匹配
若模式串长度为m,主串长度为n,则
匹配成功的最好时间复杂度:O(m)
匹配失败的最好时间复杂度:O(n-m+1) = O(n-m) = O(n)
最坏情况:每个子串的前m-1个字符都和模式串匹配,只有第m个字符不匹配
直到匹配成功/失败最多需要(n-m+1)*m次比较,
最坏时间复杂度:O(nm)