一、字符串
串的逻辑结构
串:零个或多个字符组成的有限序列。
串长度:串中所包含的字符个数。
空串:长度为0的串,记为:" "。
非空串通常记为:
S=" s1 s2 …… sn "
其中:S是串名,双引号是定界符,双引号引起来的部分是串值 ,si(1≤i≤n)是一个任意字符。
子串:串中任意个连续的字符组成的子序列。
主串:包含子串的串。
子串的位置:子串的第一个字符在主串中的序号。
S1="ab12cd "
S2=“ab12”
S3="ab13"
串的存储结构
顺序串:用数组来存储串中的字符序列。
链接串:用链接存储结构来存储串。
####0 模式匹配
给定主串S="s1s2…sn"和模式T=“t1t2…tm”,
在S中寻找T 的过程称为模式匹配。
基本思想:
从主串S的第0个字符开始和模式T 的第0个字符进行比较,
若相等,则继续比较两者的后续字符;
否则,从主串S的第1个字符开始和模式T 的第0个字符进行比较,
重复上述过程,直到T 中的字符全部比较完毕,则说明本趟匹配成功;或S中字符全部比较完,则说明匹配失败。
说明:模式匹配过程要进行多趟的匹配,每趟匹配要进行若干次的比较
BF算法
- 在串S和串T中设比较的起始下标i和j;
- 循环直到S或T的所有字符均比较完;
2.1 如果S[i]==T[j],继续比较S和T的下一个字符;
2.2 否则,将i和j回溯(i=i-j+1,j=0),准备下一趟比较; - 如果T中所有字符均比较完,则匹配成功,返回匹配的起始比较下标(i-j);否则,匹配失败,返回-1;
int BF(char S[ ], char T[ ])
{
i=0; j=0;
while (i<S.Length()&&j<T.length())
{
if (S[i]==T[j]) {
i++; j++;
}
else {
i=i-j+1; j=0;
}
}
if (j>=T.length()) return (i-j);
else return -1;
}
最好:不成功的匹配都发生在串T的第一个字符。
最坏情况:不成功的匹配都发生在串T的最后一个字符。
1.为什么BF算法时间性能低?
在每趟匹配不成功时存在大量回溯,没有利用已经部分匹配的结果。
2.如何在匹配不成功时主串不回溯?
主串不回溯,模式就需要向右滑动一段距离。(i不移动,j>=0的位置继续进行下一次的比较)
KMP算法
i可以不回溯,模式向右滑动到的新比较起点k ,并且k 仅与模式串T有关
1.在串S和串T中分别设比较的起始下标i和j;
2. 循环直到S中所剩字符长度小于T的长度或T中所有字符均比较完毕
2.1 如果S[i]==T[j],继续比较S和T的下一个字符;否则
2.2 将j向右滑动到next[j]位置,即j=next[j];
2.3 如果j=-1,则将i和j分别加1,准备下一趟比较;
3. 如果T中所有字符均比较完毕,则返回匹配的起始下标;否则返回-1;
int KMP_FindPat(char *s, char *t,int *next){
int i=0,j=0,k;
while(s[i]!='\0' && t[j]!='\0') {
if(j==-1 || s[i]==t[j]) {
i++;
j++;
}
else
j=next[j];
}
if(t[j]=='\0')
return i-j;
else
return -1;
}
二、多维数组
多维数组——线性表中的数据元素可以是线性表,但所有元素的类型相同。
广义表——线性表中的数据元素可以是线性表,且元素的类型可以不相同。
数组定义
数组是由一组类型相同的数据元素构成的有序集合,每个元素受n(n≥1)个线性关系的约束,并称该数组为 n 维数组。
数组——线性表推广
数组基本操作
⑴ 存取:给定一组下标,读出对应的数组元素;
⑵ 修改:给定一组下标,存储或修改与其相对应的数组元素。
存取和修改操作本质上只对应一种操作——寻址
数组没有插入和删除操作,所以,不用预留空间,适合采用顺序存储。
**
二维数组常用的映射方法有两种
按行优先:先行后列,先存储行号较小的元素,行号相同者先存储列号较小的元素。
aij前面的元素个数
=整行数×每行元素个数+本行中aij前面的元素个数
=(i -l1)×(h2 -l2+1)+(j -l2)
按列优先:先列后行,先存储列号较小的元素,列号相同者先存储行号较小的元素。
设数组开始存放位置 LOC( 0, 0 ) = a,
每个元素占用 l 个存储单元
则a[i][j]的存储地址:
LOC ( i, j ) = a + ( j *n +i ) * l
三维数组
各维元素个数为 m1, m2, m3
下标为 i1, i2, i3的数组元素的存储地址:
按页/行/列存放
说明:各维的下标从0开始
三、矩阵的压缩存储
特殊矩阵和稀疏矩阵
特殊矩阵:矩阵中很多值相同的元素并且它们的分布有一定的规律。
稀疏矩阵:矩阵中有很多零元素。
压缩存储的基本思想是:
⑴ 为多个值相同的元素只分配一个存储空间;
⑵ 对零元素不分配存储空间。
特殊矩阵的压缩存储——对称矩阵
对于下三角中的元素aij(i≥j), 在一维数组中的下标k与i、j的关系为:k=i×(i-1)/2+j-1 。
上三角中的元素aij(i<j),因为aij=aji,则访问和它对应的元素aji即可,即:k=j×(j-1)/2+i -1。
下标从1开始
aij在一维数组中的序号
= i×(i-1)/2+ j
∵一维数组下标从0开始
∴aij在一维数组中的下标
k= i×(i-1)/2+ j-1
下标从0开始
aij在一维数组中的序号
= i×(i+1)/2+ j+1
∵一维数组下标从0开始
∴aij在一维数组中的下标
k= i×(i+1)/2+ j
特殊矩阵的压缩存储——三角矩阵
只存储上三角(或下三角)部分的元素
特殊矩阵的压缩存储——对角矩阵
对角矩阵:所有非零元素都集中在以主对角线为中心的带状区域中,除了主对角线和它的上下方若干条对角线的元素外,所有其他元素都为零。
二维数组法
用一个一维的数组存储对角线上的非零元素
以行序为主序,aij在一维数组中的地址k?
k=(3*(i-1)-1)+(j-i+1)
k=2i+j-3
稀疏矩阵的压缩存储
将稀疏矩阵中的每个非零元素表示为:
(行号,列号,非零元素值)——三元组
构建三元组
template <class T>
struct element
{
int row, col; //行号,列号
T item //非零元素值
};
三元组表:将稀疏矩阵的非零元素对应的三元组所构成的集合,按行优先的顺序排列成一个线性表。
稀疏矩阵的压缩存储——三元组顺序表
存储结构定义:
const int MaxTerm=100;
template <class T>
struct SparseMatrix
{
T data[MaxTerm]; //存储非零元素
int mu, nu, tu; //行数,列数,非零元个数
};
稀疏矩阵的压缩存储——十字链表
template<class T>
class OLNode
{
public:
int row,col;
T element;
OLNode<T>* right,*down;
public:
OLNode(){right=NULL;down=NULL;};
};
广义表
广义表(列表): n ( 0 )个表元素组成的有限序列,记作:
LS = (a0, a1, a2, …, an-1)
LS是表名,ai是表元素,它可以是表 (称为子表),可以是数据元素(称为原子)。
n为表的长度。n = 0 的广义表为空表。
长度:广义表LS中的直接元素的个数;
深度:广义表LS中括号的最大嵌套层数。
表头:广义表LS非空时,称第一个元素为LS的表头;
表尾:广义表LS中除表头外其余元素组成的广义表。
结点结构
tag:区分表结点和元素结点的标志;
hp:指向表头结点的指针;
tp:指向表尾结点的指针;
data:数据域,存放单元素。
enum Elemtag {Atom, List};
template <class T> struct GLNode { Elemtag tag; union {
T data;
struct
{
GLNode *hp, *tp;
} ptr;
};
特点
有次序性
有长度
有深度
可递归
可共享
广义表与线性表区别
线性表的成分都是结构上不可分的单元素
广义表的成分可以是单元素,也可以是有结构的表
线性表是一种特殊的广义表
广义表不一定是线性表,也不一定是线性结构