数据结构 - 第 9 章查找

yzr213

已于 2024-01-30 15:25:44 修改

阅读量351

点赞数 10

分类专栏：计算机考研 408 统考科目文章标签：数据结构

于 2023-12-18 10:30:51 首次发布

本文链接：https://blog.csdn.net/yzr213/article/details/135056617

版权

计算机考研 408 统考科目专栏收录该内容

38 篇文章 1 订阅

订阅专栏

本文详细介绍了查找的基本概念，包括顺序查找、分块查找和折半查找，以及B树和B+树的原理。重点讲解了散列表的构造、冲突处理方法、查找分析和性能。强调了考研中的重点难点，如散列查找的特性、B树和B+树的操作过程。

摘要由CSDN通过智能技术生成

【考纲内容】

（一）查找的基本概念

（二）顺序查找法

（三）分块查找法

（四）折半查找法

（五）B 树及其基本操作、B+ 树的基本概念

（六）散列表

（七）查找算法的分析及应用

【知识框架】

【复习提示】

本章是考研命题的重点；对于散列查找，应掌握散列表的构造、冲突处理方法（各种方法的处理过程）、查找成功和查找失败的平均查找长度、散列查找的特征和性能分析；对于折半查找，应掌握折半查找的过程、构造判定树、分析平均查找长度等；B 树和 B+ 树是本章的难点；对于 B 树，考研大纲要求掌握插入、删除和查找的操作过程；对于 B+ 树，仅要求了解其基本概念和性质

1. 查找的基本概念

查找	在数据集合中寻找满足某种条件的数据元素的过程，称为 "查找"
查找结果	查找成功：在数据集合中找到了满足条件的数据元素
	查找失败：未找到满足条件的数据元素
查找表（查找结构）	用于查找的数据集合称为 "查找表" ，查找表由同一类型的数据元素（记录）组成，可以是一个数组或链表等数据结构
4 种常用查找操作	不改变元素状态（读）	（1）查询某个特定的数据元素是否在查找表中
		（2）检索满足条件的某个特定的数据元素的各种属性
	改变元素状态（写）	（3）在查找表中插入一个数据元素
		（4）从查找表中删除某个数据元素
静态查找表	若一个查找表的操作只涉及读操作，则无须动态地修改查找表，此类查找表称为 "静态查找表"
静态查找方法	适合静态查找表的查找方法有：顺序查找、折半查找、散列查找等
动态查找表	与此对应，需要动态地插入或删除的查找表称为 "动态查找表"
动态查找方法	适合动态查找表的查找方法有：二叉排序树的查找、散列查找等；二叉平衡树和 B 树都是二叉排序树的改进
关键字	数据元素中唯一标识该元素的某个数据项的值，使用基于关键字的查找，查找结果应该是唯一的例如，学生的学号唯一标识一个学生
平均查找长度	在查找过程中，一次查找的长度是指需要比较的关键字次数，而平均查找长度则是所有查找过程中进行关键字的比较次数的平均值，其数学定义为 $ASL = \sum_{i=1}^{n}P_{i}C_{i}$ $n$ 是查找表的长度； $P_i$ 是查找第 $i$ 个数据元素的概率，一般认为每个数据元素的查找概率相等，即 $P_{i} = 1/n$ ； $C_{i}$ 是查找第 $i$ 个数据元素所需进行的比较次数平均查找长度是衡量查找算法效率的最主要指标

2. 顺序查找和折半查找

2.1 顺序查找

2.2 折半查找（二分查找）

2.3 分块查找（索引顺序查找）

3. B 树和 B+ 树

4. 散列表

4.1 散列表的基本概念

散列表的基本概念
背景	在前面介绍的线性表和树表的查找中，记录在表中的位置与记录的关键字之间不存在确定关系；因此，在这些表中查找记录时，需要进行一系列的关键字比较；这类查找方法建立在 " 比较 " 的基础上，查找的效率取决于比较的次数
散列函数	一个把查找表中的关键字，映射成该关键字对应的地址的函数，记为 $Hash(key)$ $=$ $Addr$ 注意：这里的地址可以是数组下标、索引或内存地址
冲突	散列函数可能会把两个或两个以上的不同关键字映射到同一地址，称这种情况为 " 冲突 "
同义词	这些发生碰撞的不同关键字称为 " 同义词 "
小结	一方面，设计得好的散列函数应该尽量减少这样的冲突；另一方面，由于这样的冲突不可避免，所以还要设计处理冲突的方法
散列表	根据关键字而直接进行访问的数据结构；换句话说，散列表建立了关键字和存储地址之间的一种直接映射关系
理想状态	理想情况下，对散列表进行查找的时间复杂度为 $O(1)$ ，即与表中元素的个数无关

4.2 散列函数的构造方法

散列函数的构造方法

构造散列函数的注意点
1	散列函数的定义域必须包含需要存储的所有关键字
	值域的范围则依赖于散列表的大小或地址范围
2	散列函数计算出来的地址应该能等概率、均匀地分布在整个地址空间中，从而减少冲突的发生
3	散列函数应该尽量简单，能够在较短的时间内计算出任一关键字对应的散列地址

常用散列函数构造方法
1. 直接定址法
概念	直接取关键字的某个线性函数值，作为散列地址，散列函数如下： $H(key)$ $=$ $key$ 或 $H(key)$ $=$ $a\times key + b$ 式中， $a$ 和 $b$ 是常数
优点	计算最简单，且不会产生冲突；适合关键字分布基本连续的情况
缺点	若关键字分布不连续，空位较多，则会造成存储空间的浪费
2. 除留余数法
概念	假定散列表的表长为 $m$ ，取一个不大于 $m$ 但最接近或等于 $m$ 的质数 $p$ ，利用下面公式把关键字转换成散列地址，散列函数如下： $H(key)$ = $key$ % $p$
优点	这是一种最简单、最常用的方法
特别注意	除留余数法的关键，是选好 $p$ ，使得每个关键字通过该函数转换后，等概率地映射到散列空间上的任一地址，从而尽可能减少冲突的可能性
3. 数字分析法
概念	设关键字是 $r$ 进制数（比如十进制数），而 $r$ 个数码在各位上出现的频率不一定相同，可能在某些位上分布均匀一些，每种数码出现的机会均等；而在某些位上分布不均匀，只有某几种数码经常出现，此时应选取数码分布较为均匀的若干位作为散列地址
优点	适合于已知的关键字集合
缺点	若更换了关键字，则需要重新构造新的散列函数
4. 平方取中法
概念	取关键字的平方值的中间几位作为散列地址；具体取多少位要根据实际情况而定
特点	平方取中法得到的散列地址与关键字的每位都有关系，因此使得散列地址分布比较均匀，适用于关键字的每位取值都不够均匀或均小于散列地址所需的位数
总结
在不同的情况下，不同的散列函数具有不同的性能，因此不能笼统地说哪种散列函数最好；在实际选择中，采用何种构造散列函数的方法取决于关键字集合的情况，但目标都是为了尽量降低产生冲突的可能性

4.3 处理冲突的方法

遇到冲突时的处理方法
基本思想	应该注意到，任何设计出来的散列函数都不可能绝对地避免冲突；为此，必须考虑在发生冲突时应该如何处理，即为产生冲突的关键字寻找下一个 " 空 " 的 $Hash$ 地址；用 $H_i$ 表示处理冲突中第 $i$ 次探测得到的散列地址；假设得到的另一个散列地址 $H_1$ 仍然发生冲突，只得继续寻找下一个地址 $H_2$ ，以此类推，直到 $H_k$ 不发生冲突为止，则 $H_k$ 为关键字在表中的地址

1. 开放定址法
开放定址法概念	所谓开放定址法，是指可存放新表项的空闲地址，既向它的同义词表项开放，也向它的非同义词表项开放；其数学递推公式为： $H_i = (H(key) + d_i)$ % $m$ 式中， $H(key)$ 为散列函数； $i = 0 , 1 , 2 , ... k (k \leqslant m - 1)$ ； $m$ 表示散列表表长； $d_i$ 为增量序列
开放定址法概念	取定某一增量序列后，对应的处理方法是确定的；通常有以下 4 种取法：
线性探测法
概念	当 $d_i = 0 , 1 , 2 , ... , m-1$ 时，称为线性探测法
概念	这种方法的特点是：冲突发生时，顺序查看表中下一个单元（探测到表尾地址 $m-1$ 时，下一个探测地址是表首地址 $0$ ），直到找出一个空闲单元（当表未填满时一定能找到一个空闲单元）或查遍整张表
缺陷	线性探测法可能使第 $i$ 个散列地址的同义词存入第 $i+1$ 个散列地址，这样本应存入 $i+1$ 个散列地址的元素就争夺第 $i+2$ 个散列地址的元素的地址 ...... 从而造成大量元素在相邻的散列地址上 " 聚集（堆积） " 起来，大大降低了查找效率
平方探测法
概念	当 $d_i = 0^2 ,1^2 ,-1^2 , 2^2 , -2^2 , ... , k^2 , -k^2$ 时，称为平方探测法，其中 $k\leqslant m/2$
概念	散列表长度 $m$ 必须是一个可以表示成 $4k+3$ 的素数，又称二次探测法
优点	平方探测法是一种较好的处理冲突的方法，可以避免出现 " 堆积 " 问题
缺点	无法探测到散列表上的所有单元，但至少能探测到一半单元
再散列法
概念	当 $d_i = Hash_2(key)$ 时，称为再散列法，又称双散列法
	需要使用两个散列函数，当通过第一个散列函数 $H(key)$ 得到的地址发生冲突时，则利用第二个散列函数 $Hash_2(key)$ 计算该关键字的地址增量；
	具体的散列函数形式如下： $H_i = (H(key) + i\times Hash_2(key))$ % $m$ 初始探测位置 $H_0 = H(key)$ % $m$ ； $i$ 是冲突的次数，初始为 0
特点	再散列法中，最多经过 $m-1$ 次探测就会遍历表中所有位置，回到 $H_0$ 位置
伪随机序列法
概念	当 $d_i =$ 伪随机数序列时，称为伪随机序列法

2. 拉链法（链接法，chaining）
概念	对于不同的关键字可能会通过散列函数映射到同一地址，为了避免非同义词发生冲突，可以把所有的同义词存储在一个线性链表中；这个线性链表，由其散列地址唯一标识
	假设散列地址为 $i$ 的同义词链表的头指针存放在散列表的第 $i$ 个单元中，因而查找、插入和删除操作，主要在同义词链表中进行
	拉链法适用于经常进行插入和删除的情况