1.基本概念
1.1 名词解析
- 查找: 在数据集合中寻找满足某种条件的数据元素的过程称为查找。
- 查找表(查找结构): 用于查找的数据集合称为查找表,它由同一类型的数据元素 (或记录)组成。
- 关键字: 数据元素中唯一标识该元素的某个数据项的值,使用基于关键字的查找,查找结果应该是唯一的。
- 对查找表的常⻅操作:
1.查找符合条件的数据元素
2.插⼊、删除某个数据元素
只需进⾏操作1的 —— 静态查找表,仅关注查找速度即可
也要进⾏操作2 —— 动态查找表,除了查找速度,也要关注插入/删操作是否⽅便实现
1.2 查找算法的评价指标
- 查找长度: 在查找运算中,需要对比关键字的次数称为查找长度。
- 平均查找长度(ASL,Average Search Length): 所有查找过程中进行关键字的比较次数的平均值。
ASL 的数量级反应了查找算法时间复杂度
评价⼀个查找算法的效率时,通常考虑查找成功/查找失败两种情况的 ASL
2. 顺序查找
2.1 顺序查找的算法思想
- 顺序查找,⼜叫“线性查找”,通常⽤于线性表。
- 算法思想: 从头到 jio 挨个找(或者反过来也OK)
代码实现:
typedef struct{ //查找表的数据结构(顺序表)
ElemType *elem; //动态数组基址
int TableLen; //表的长度
}SSTable;
//顺序查找
int Search_Seq(SSTable ST,ElemType key){
int i;
for(i=0;i<ST.TableLen && ST.elem[i]!=key;++i);
// 查找成功返回数组下标,否则返回-1
return i=ST.TableLen? -1 : i;
}
哨兵方式代码实现:
0号位置存“哨兵”,数据从下标1开始存。
优点:⽆需判断是否越界,效率更⾼
typedef struct{ //查找表的数据结构(顺序表)
ElemType *elem; //动态数组基址
int TableLen; //表的长度
}SSTable;
//顺序查找
int Search_Seq(SSTable ST,ElemType key){
ST.elem[0]=key;
int i;
for(i=ST.TableLen;ST.elem[i]!=key;--i)
// 查找成功返回数组下标,否则返回0
return i;
}
2.2 查找效率分析
2.3 顺序查找的优化(对有序表)
按关键字有序的顺序表的顺序查找,查找成功时的平均查找长度不变,
区别: 查找失败时可以不用再比较到表的另一端就能返回查找失败的信息,从而降低顺序查找失败时的平均查找长度
2.4 ⽤查找判定树分析ASL
- ⼀个成功结点的查找⻓度 = ⾃身所在层数
- ⼀个失败结点的查找⻓度 = 其⽗节点所在层数
- 默认情况下,各种失败情况或成功情况都等概率发⽣
2.5 顺序查找的优化(被查概率不相等)
按被查概率降序排列
3. 折半查找
3.1 折半查找的算法思想
**适用范围:**折半查找,⼜称“⼆分查找”,仅适⽤于有序的顺序表。顺序表拥有随机访问
的特性,链表没有。
3.1.1 折半查找的基本思想:
首先将给定值key与表中中间位置的元素(mid的指向元素)比较。mid=low+high/2(向下取整)
- 若key与中间元素相等,则查找成功,返回该元素的存储位置,即mid;
- 若key与中间元素不相等,则所需查找的元素只能在中间元素以外的前半部分或后半部分。(至于是前半部分还是后半部分要看key与mid所指向元素的大小关系)
a.在查找表升序排列的情况下,若给定值key大于中间元素则所查找的元素只可能在后半部分。此时让low=mid+1,继续查找;
b.若给定值key小于中间元素则所查找的元素只可能在前半部分。此时让high=mid-1,继续查找;
3.2 折半查找代码实现:
typedef struct{
ElemType *elem;
int TableLen;
}SSTable;
// 折半查找
int Binary_Search(SSTable L,ElemType key){
int low=0,high=L.TableLen,mid;
while(low<=high){
mid=(low+high)/2;
if(L.elem[mid]==key)
return mid;
else if(L.elem[mid]>key)
high=mid-1; //从前半部分继续查找
else
low=mid+1; //从后半部分继续查找
}
return -1;
}
3.3 查找效率分析
3.3.1折半查找判定树的构造:
- mid= ⌊ ( l o w + h i g h ) / 2 ⌋ \left \lfloor \right (low + high )/2 \rfloor ⌊(low+high)/2⌋,如果当前 low 和 high 之间有奇数个元素,则 mid 分隔后,左右两部分元素个数相等;如果当前 low 和 high 之间有偶数个元素,则 mid 分隔后,左半部分⽐右半部分少⼀个元素。
- 折半查找的判定树中,若mid=
⌊
(
l
o
w
+
h
i
g
h
)
/
2
⌋
\left \lfloor \right (low + high )/2 \rfloor
⌊(low+high)/2⌋,则对于任何⼀个结点,必有:右⼦树结点数 - 左⼦树结点数 = 0 或 1。
- 折半查找的判定树⼀定是平衡⼆叉树。折半查找的判定树中,只有最下⾯⼀层是不满的。因此,元素个数为 n 时树⾼ h = ⌈ log 2 ( n + 1 ) ⌉ \left \lceil \log_{2}(n+1) \right \rceil ⌈log2(n+1)⌉, 注: 该树⾼不包含失败结点
- 判定树结点关键字:左<中<右,满⾜⼆叉排序树的定义。失败结点:n+1个(等于成功结点的空链域数量)
- 折半查找的查找效率:折半查找的时间复杂度 = O ( log 2 n ) O(\log_{2}n) O(log2n) 。
- 查找成功的ASL ≤ h, 查找失败的ASL ≤ h
- 折半查找的速度不⼀定⽐顺序查找更快
3.4 扩展:如果 m i d = ⌈ ( l o w + h i g h ) / 2 ⌉ mid = \left \lceil (low + high )/2 \right \rceil mid=⌈(low+high)/2⌉
- 如果当前low和high之间有偶数个元素,则 mid 分隔后,左半部分⽐右半部分多⼀个元素
- 如果当前low和high之间有奇数个元素,则 mid 分隔后,左右两部分元素个数相等
4. 分块查找
4.1 适用范围
分块查找又称“索引顺序查找”,数据分块存储,块内无序、块间有序。
4.2 分块查找的算法思想
4.2.1存储形式
- “索引表”中保存每个分块的最⼤关键字和分块的存储区间。
- 顺序表存储实际元素
// 索引表
typedef struct{
ElemType maxValue;
int low,high;
}Index;
// 顺序表存储实际元素
ElemType List[100];
4.2.2算法过程
分块查找,⼜称索引顺序查找,它的基本思想是:把查找表分成若干子块,块内元素可以无序,但是块间需要有序,也即前一个块内最大的关键字需要小于后一个块内所有的关键字。还需要再建立一个索引表,保存块内最大的关键字和第一个元素的地址(或者块内元素地址的区间),索引表按关键字有序排列。
算法过程如下:
①在索引表中确定待查记录所属的分块(可顺序、可折半)
②在块内顺序查找
若使用折半查找且索引表中不包含⽬标关键字,则最终要停在 low > high,要在 low 所指分块中查找目标关键字。(返回最终的left,对应的元素大于等于关键字)
原因:最终low左边⼀定⼩于⽬标关键字,high右边⼀定⼤于⽬标关键字。⽽分块存储的索引表中
保存的是各个分块的最⼤关键字
若low超出索引表范围,查找失败
4.3 查找效率分析(ASL)
4.3.1 一般情况
4.3.2 均匀地分为b块,每块s个元素
设索引查找和块内查找的平均查找⻓度分别为LI、LS,则分块查找的平均查找⻓度为
A
S
L
=
L
I
+
L
S
ASL=LI + LS
ASL=LI+LS