查找算法DS

最新推荐文章于 2024-01-06 13:04:43 发布

深センのHZ

最新推荐文章于 2024-01-06 13:04:43 发布

阅读量179

点赞数

分类专栏：数据结构文章标签：算法数据结构哈希算法

本文链接：https://blog.csdn.net/weixin_51153209/article/details/127477341

版权

数据结构专栏收录该内容

6 篇文章 0 订阅

订阅专栏

查找概述

查找概念

设记录表 $L = (R 1 R 2 \dots\dots R n)$ ，其中 $R i (l \leq i \leq n)$ 为记录，对给定的某个值k，在表L中确定key=k的记录的过程，称为查找。

若表L中存在一个记录R_i的key=k，记为R_i.key=k，则查找成功，返回该记录在表L中的序号i(或R_i 的地址)，否则(查找失败)返回0(或空地址Null)。

查找方法

常见的七种查找方法有顺序查找、二分查找、插值查找、树表查找、分块查找、(Hash表)哈希查找等等。

查找算法的优劣将影响到计算机的使用效率，应根据应用场合选择相应的查找算法。

查找-平均查找长度

对查找算法，主要分析其T(n)。查找过程是key的比较过程，时间主要耗费在各记录的key与给定k值的比较上。比较次数越多，算法效率越差（即T(n)量级越高），故用“比较次数”刻画算法的T(n)。

平均查找长度ASL（Average Search Length）：对给定k，查找表L中记录比较次数的期望值(或平均值)，即：

P_i为查找R_i的概率。等概率情况下P_i=1/n；C_i为查找R_i时key的比较次数(或查找次数)。

顺序查找

基本思想

顺序查找也称为线形查找，属于无序查找算法。从数据结构线形表的一端开始，顺序扫描，依次将扫描到的结点关键字与给定值k相比较，若相等则表示查找成功；若扫描结束仍没有找到关键字等于k的结点，表示查找失败。

复杂度分析

查找成功时的平均查找长度为：（假设每个数据元素的概率相等） $A S L = 1/ n (1 + 2 + 3 + \dots + n) = (n + 1) /2$ ;
当查找不成功时，需要n+1次比较，时间复杂度为 $O (n)$ ;

所以，顺序查找的时间复杂度为** $O (n)$ **。

C++实现

//顺序查找
int SequenceSearch(int a[], int value, int n)

{
   int i;
   for(i=0; i<n; i++)
       if(a[i]==value)
            return i;
   return -1;
}

二分查找

基本思想

也称为是折半查找，属于有序查找算法。用给定值k先与中间结点的关键字比较，中间结点把线形表分成两个子表，若相等则查找成功；若不相等，再根据k与该中间结点关键字的比较结果确定下一步查找哪个子表，这样递归进行，直到查找到或查找结束发现表中没有这样的结点。

注：折半查找的前提条件是需要有序表顺序存储，对于静态查找表，一次排序后不再变化，折半查找能得到不错的效率。但对于需要频繁执行插入或删除操作的数据集来说，维护有序的排序会带来不小的工作量，那就不建议使用。

复杂度分析

最坏情况下，关键词比较次数为 $l o g 2 (n + 1)$ ，且期望时间复杂度为 $O (l o g 2 n)$ ；

C++实现

//二分查找（折半查找），版本1
int BinarySearch1(int a[], int value, int n)
{
    int low, high, mid;
    low = 0;
    high = n-1;
    while(low<=high)
    {
        mid = (low+high)/2;
        if(a[mid]==value)
            return mid;
        if(a[mid]>value)
            high = mid-1;
        if(a[mid]<value)
            low = mid+1;
    }
    return -1;
}

//二分查找，递归版本
int BinarySearch2(int a[], int value, int low, int high)
{
    int mid = low+(high-low)/2;
    if(a[mid]==value)
        return mid;
    if(a[mid]>value)
        return BinarySearch2(a, value, low, mid-1);
    if(a[mid]<value)
        return BinarySearch2(a, value, mid+1, high);
}

插值查找

折半查找这种查找方式，不是自适应的（也就是说是傻瓜式的）。二分查找中查找点计算如下：
$mi d = (l o w + hi g h) /2, 即 mi d = l o w + 1/2 * (hi g h - l o w)$
通过类比，我们可以将查找的点改进为如下：
$mi d = l o w + (k ey - a [l o w]) / (a [hi g h] - a [l o w]) * (hi g h - l o w)$

也就是将上述的比例参数1/2改进为自适应的，根据关键字在整个有序表中所处的位置，让mid值的变化更靠近关键字key，这样也就间接地减少了比较次数。

基本思想

基于二分查找算法，将查找点的选择改进为自适应选择，可以提高查找效率。当然，差值查找也属于有序查找。

注：对于表长较大，而关键字分布又比较均匀的查找表来说，插值查找算法的平均性能比折半查找要好的多。反之，数组中如果分布非常不均匀，那么插值查找未必是很合适的选择。

复杂度分析

查找成功或者失败的时间复杂度均为 $O (l o g 2 (l o g 2 n))$ 。

分块查找

基本思想

将 n 个数据元素"按块有序"划分为 m 块（m ≤ n）。每一块中的结点不必有序，但块与块之间必须"按块有序"；即第 1 块中任一元素的关键字都必须小于第 2 块中任一元素的关键字；而第 2 块中任一元素又都必须小于第 3 块中的任一元素

哈希查找

顺序、折半、分块查找和树表的查找中，其ASL的量级在 $O (n) ～ O (l o g 2 n)$ 之间。
不论ASL在哪个量级，都与记录长度n有关。随着n的扩大，算法的效率会越来越低。
ASL与n有关是因为记录在存储器中的存放是随机的，或者说记录的key与记录的存放地址无关，因而查找只能建立在key的“比较”基础上。

什么是哈希(Hash)表

理想的查找方法是：对给定的k，不经任何比较便能获取所需的记录，其查找的时间复杂度为常数级O©。

这就要求在建立记录表的时候，确定记录的key与其存储地址之间的关系f，即使key与记录的存放地址H相对应：

当要查找key=k的记录时，通过关系f就可得到相应记录的地址而获取记录，从而免去了key的比较过程。

这个关系f就是所谓的Hash函数（或称散列函数、杂凑函数），记为H(key)。

它实际上是一个地址映象函数，其自变量为记录的key，函数值为记录的存储地址（或称Hash地址）。