线性搜索、二分搜索【数据结构与算法】

最新推荐文章于 2025-10-11 20:37:22 发布

饭碗的彼岸one

最新推荐文章于 2025-10-11 20:37:22 发布

阅读量2.2k

点赞数 14

CC 4.0 BY-SA版权

分类专栏：算法与数据结构onepiece 文章标签：开发语言 C++ 线性搜索二分搜索数据结构算法

本文链接：https://blog.csdn.net/weixin_73943498/article/details/151613810

算法与数据结构onepiece 专栏收录该内容

17 篇文章

订阅专栏

在这里插入图片描述

文章目录

如果觉得本文对您有所帮助，点个赞和关注吧，谢谢！！！你的支持就是我持续更新的最大动力

序言

在浩瀚的数据世界中，快速而准确地定位信息是所有计算任务的基石。搜索算法，正是实现这一目标的核心技术。本文将以一名资深开发者的视角，系统性地剖析两种基础且至关重要的搜索算法：线性搜索 (Linear Search) 与二分搜索 (Binary Search)。我们将不仅限于实现，更会深入探讨其背后的数学原理、性能瓶颈、边界处理的精髓，以及在现代C++中的最佳实践。

一、线性搜索 (Linear Search)

线性搜索，或称顺序搜索，是最符合人类直觉的查找方式。它好比在一排未加整理的书架上找一本书，我们只能从头到尾，一本一本地检查。

1.1 核心思想与执行流程

线性搜索的策略是简单直接的暴力穷举。它不要求数据有任何先决顺序。

遍历起点: 从数据集合的第一个元素（索引为0）开始。
逐一比对: 依次将当前元素与目标值 target进行比较。
查找成功: 若当前元素与 target 相等，搜索成功，立即返回该元素的索引。
遍历继续: 若不相等，则移动到下一个元素，重复比对过程。
查找失败: 若遍历完所有元素仍未找到匹配项，则搜索失败。

示例

在数组 [3, 44, 38, 5, 47, 15] 中搜索 target = 5：

index 0: 3 != 5
index 1: 44 != 5
index 2: 38 != 5
index 3: 5 == 5 -> 成功！返回索引 3。

1.2 算法实现与函数解析

一个健壮的模板化实现如下，以适应不同数据类型。

#include <vector>
#include <iostream>

/**
 * @brief 在一个容器中执行线性搜索，查找目标元素的第一个匹配项。
 * 
 * @tparam T 容器中元素的类型。
 * @param arr 要搜索的容器（如 std::vector）。该函数接受任何支持基于范围的for循环的容器。
 * @param target 要查找的目标值。
 * @return int 如果找到目标值，返回其首次出现的索引；否则返回 -1。
 */
template <typename T>
int linearSearch(const std::vector<T>& arr, const T& target) {
    for (size_t i = 0; i < arr.size(); ++i) {
        if (arr[i] == target) {
            return static_cast<int>(i); // 找到目标，返回索引
        }
    }
    return -1; // 遍历结束仍未找到，返回-1
}

函数作用:
linearSearch 函数的核心职责是在一个 std::vector 容器中，从头到尾查找一个给定的 target 值，并返回其首次出现的位置。

使用格式模板:

int result_index = linearSearch(data_vector, value_to_find);

参数含义:
- const std::vector<T>& arr: 一个常量引用，指向待搜索的 std::vector。使用 const& 是C++的高效实践，它避免了整个容器的复制开销，并确保函数不会意外修改原始数据。
- const T& target: 一个常量引用，代表需要搜索的目标值。
返回值:
- int: 返回一个整型值。
  - 非负整数: 若找到 target，返回其在 vector 中的索引。
  - -1: 这是一个哨兵值 (Sentinel Value)，是业界广泛接受的约定，用于表示“未找到”或“失败”状态。

1.3 复杂度与性能剖析

时间复杂度:
- 最坏情况: O(n)。当目标元素位于数组末尾，或根本不存在时，需要完整遍历 n 个元素。
- 最佳情况: O(1)。当目标元素恰好是第一个元素时。
- 平均情况: O(n)。假设目标元素在数组中等概率出现，平均需要检查 n/2 个元素，其复杂度量级仍为 O(n)。
空间复杂度: O(1)。算法仅使用了固定的额外空间（如循环变量 i），与输入规模 n 无关。

1.4 优缺点与适用场景

优点:
- 普适性强: 对数据无任何排序要求，可用于任何序列容器。
- 实现简单: 逻辑清晰，代码易于编写和理解。
缺点:
- 效率低下: 当数据规模 n 巨大时，O(n) 的时间复杂度会成为性能瓶瓶颈。

适用场景:

数据集合无序或无法排序时。
数据规模非常小，O(n) 的开销可以忽略不计。
对于需要插入和删除操作频繁的链表结构，线性搜索是其唯一的内置搜索方式。

二、二分搜索 (Binary Search)

当数据集合满足有序这一关键前提时，二分搜索将展现出惊人的效率。它摒弃了逐一排查的笨拙，采用了一种更智能的“分而治之” (Divide and Conquer) 策略。这好比在一部厚厚的字典中查单词，我们不会从第一页开始翻，而是直接翻到中间，根据首字母判断目标在前一半还是后一半，从而瞬间排除掉半本字典的内容。

2.1 核心思想与前提

绝对前提: 数据集合必须是有序的 (通常为升序)。这是二分搜索正确性的基石。无序数据上使用二分搜索将导致不可预测的错误结果。
执行流程:
1. 定义搜索区间: 维护一个闭区间 [left, right]，初始时覆盖整个数组 (left = 0, right = n-1)。
2. 计算中点: 找到区间的中心位置 mid。
3. 三路比较:
  - 若 arr[mid] == target，则查找成功，返回 mid。
  - 若 arr[mid] < target，由于数组是升序的，target 必然位于 mid 的右侧。因此，我们果断抛弃左半部分，将搜索区间收缩为 [mid + 1, right]。
  - 若 arr[mid] > target，同理，target 必然位于 mid 的左侧。抛弃右半部分，将搜索区间收缩为 [mid, right - 1]。
4. 循环迭代: 重复步骤2和3，每一次迭代都将搜索范围缩减一半，直到 left > right。此时搜索区间为空，说明目标值不存在。

示例

在有序数组 [2, 5, 8, 12, 16, 23, 38, 56, 72, 91] 中搜索 target = 23：

Initial: left = 0, right = 9。mid = 0 + (9-0)/2 = 4。 arr[4] = 16。
- 16 < 23，目标在右侧。更新 left = mid + 1 = 5。区间变为 [5, 9]。
Iteration 2: left = 5, right = 9。mid = 5 + (9-5)/2 = 7。 arr[7] = 56。
- 56 > 23，目标在左侧。更新 right = mid - 1 = 6。区间变为 [5, 6]。
Iteration 3: left = 5, right = 6。mid = 5 + (6-5)/2 = 5。 arr[5] = 23。
- 23 == 23 -> 成功！返回索引 5。

2.2 算法实现：迭代与递归

2.2.1 迭代法 (推荐)

迭代实现是工业界的首选，因为它效率更高（无函数调用开销）且避免了大规模数据可能导致的栈溢出风险。

/**
 * @brief 在一个已排序的数组中执行二分搜索（迭代版）。
 * 
 * @tparam T 数组中元素的类型。
 * @param sortedArr 一个已按升序排序的数组。
 * @param target 要查找的目标值。
 * @return int 如果找到目标值，返回其索引；否则返回 -1。
 */
template <typename T>
int binarySearch_iterative(const std::vector<T>& sortedArr, const T& target) {
    int left = 0;
    int right = static_cast<int>(sortedArr.size()) - 1;

    // 当 left > right 时，搜索区间 [left, right] 为空
    while (left <= right) {
        // 防止 left + right 溢出的稳健写法
        int mid = left + (right - left) / 2;

        if (sortedArr[mid] == target) {
            return mid;
        } else if (sortedArr[mid] < target) {
            // 目标值在右半区间 [mid + 1, right]
            left = mid + 1;
        } else { // sortedArr[mid] > target
            // 目标值在左半区间 [left, mid - 1]
            right = mid - 1;
        }
    }

    return -1; // 搜索区间为空，未找到
}

2.2.2 递归法

递归实现能非常直观地体现“分而治之”的思想，但有额外的函数调用开销。

template <typename T>
int binarySearch_recursive_helper(const std::vector<T>& sortedArr, const T& target, int left, int right) {
    if (left > right) {
        return -1; // 基本情况：搜索区间为空
    }

    int mid = left + (right - left) / 2;

    if (sortedArr[mid] == target) {
        return mid; // 基本情况：找到目标
    } else if (sortedArr[mid] < target) {
        // 递归搜索右半部分
        return binarySearch_recursive_helper(sortedArr, target, mid + 1, right);
    } else {
        // 递归搜索左半部分
        return binarySearch_recursive_helper(sortedArr, target, left, mid - 1);
    }
}

template <typename T>
int binarySearch_recursive(const std::vector<T>& sortedArr, const T& target) {
    return binarySearch_recursive_helper(sortedArr, target, 0, static_cast<int>(sortedArr.size()) - 1);
}

2.3 O(log n) 的效率来源

二分搜索的O(log n)时间复杂度是其最引人注目的特性。这个对数关系源于其每次都能将问题规模减半的能力。

假设数据量为 n。

第一次比较后，剩余数据量为 n/2。
第二次比较后，剩余数据量为 n/4。
第 k 次比较后，剩余数据量为 n / 2^k。

搜索过程在找到元素或搜索空间耗尽（剩余1个元素）时结束。我们假设在最坏情况下，经过 k 次查找后，问题规模缩减为1。
n / 2^k = 1 => n = 2^k
对等式两边取以2为底的对数，得到：
k = log₂(n)

这意味着，数据规模 n 每增大一倍，最多只需要增加一次比较。对于一个有10亿（约 2³⁰）元素的数组，二分搜索最多只需要30次比较，而线性搜索则需要10亿次。

2.4 关键细节：边界条件与死循环的规避

二分搜索的实现看似简单，但其边界条件的正确处理是区分新手与专家的试金石。错误的边界将轻易导致漏解、越界或死循环。

循环条件: while (left <= right)
- 这定义了一个闭区间 [left, right] 作为我们的搜索空间。
- <= 的含义是：当 left 和 right 相等时，区间 [left, left] 包含一个元素，这个元素仍然是有效的搜索候选者，必须进行检查。
- 如果使用 while (left < right)，当 left 与 right 相邻并最终相等时，循环会提前退出，导致最后一个元素被忽略。
- 循环的终止条件 left > right 完美地表示了搜索区间的耗尽。
中点计算: mid = left + (right - left) / 2
- 这是防止整数溢出的标准做法。在某些编程语言或面对极大数组索引时，left + right 可能会超过整型的最大值。left + (right - left) / 2 通过计算差值再相加，巧妙地避免了这个问题。
区间更新: left = mid + 1 和 right = mid - 1
- 这是确保算法收敛、避免死循环的核心。
- 既然 arr[mid] 已经被检查过且不等于 target，那么 mid 这个位置就不可能再是答案了。因此，新的搜索区间必须将 mid 排除在外。
- 反例（导致死循环）: 假设代码写成 right = mid。当 left = 0, right = 1 时, mid 计算为 0。如果 target 比 arr[0] 小，right 会被更新为 0，下一次循环 left = 0, right = 0。如果 arr[0] 仍不等于 target，left 和 right 将不再变化，陷入死循环。
- +1 和 -1 保证了每一次迭代，left 和 right 之间的距离至少减少1，从而保证了循环的最终终止。

2.5 二分搜索的变体

基础的二分搜索用于查找特定值。但在实际应用中，我们常需要解决更复杂的问题，如查找重复元素中的第一个或最后一个。

查找第一个等于 target 的元素:
当 arr[mid] == target 时，我们不能立即返回。因为 mid 左边可能还有 target。正确的做法是记录下当前的 mid，然后尝试在左半部分 [left, mid - 1] 继续寻找。
查找最后一个等于 target 的元素:
与上一种情况类似，当 arr[mid] == target 时，记录 mid，然后在右半部分 [mid + 1, right] 继续寻找。

这些变体通常是面试中的高频题，它们考验的是对二分搜索边界和区间收缩逻辑的深层理解。

三、 C++ 标准库 (STL) 中的搜索算法

在现代C++开发中，我们很少需要手写这些基础算法。STL 提供了高度优化、经过严格测试的实现。

线性搜索:

std::find: 在一个迭代器范围内查找第一个等于给定值的元素。

#include <algorithm>
#include <vector>
auto it = std::find(vec.begin(), vec.end(), target);
if (it != vec.end()) {
    int index = std::distance(vec.begin(), it);
}

二分搜索:
- std::binary_search: 检查一个已排序的范围是否包含某个值，返回 bool。
- std::lower_bound: 在一个已排序的范围中，返回指向第一个不小于（大于或等于）target 的元素的迭代器。这是实现“查找第一个等于target”变体的利器。
- std::upper_bound: 在一个已排序的范围中，返回指向第一个大于 target 的元素的迭代器。结合 lower_bound 可以轻松计算出 target 的出现次数。

#include <algorithm>
#include <vector>

// 假设 sortedVec 是一个已排序的 vector
bool found = std::binary_search(sortedVec.begin(), sortedVec.end(), target);

auto it_first = std::lower_bound(sortedVec.begin(), sortedVec.end(), target);
auto it_last = std::upper_bound(sortedVec.begin(), sortedVec.end(), target);

// 如果 it_first != sortedVec.end() 并且 *it_first == target，则找到了
if (it_first != sortedVec.end() && *it_first == target) {
    int first_index = std::distance(sortedVec.begin(), it_first);
    // it_last - it_first 就是 target 的数量
    int count = std::distance(it_first, it_last);
}

强烈建议: 在实际项目中，优先使用 STL 提供的算法。它们不仅代码简洁，而且性能经过了极致优化。理解手写实现的核心在于掌握算法思想，以便在 STL 不适用或需要进行深度定制时能够游刃有余。

四、总结

特性 (Feature)	线性搜索 (Linear Search)	二分搜索 (Binary Search)
时间复杂度	`O(n)` - 线性	`O(log n)` - 对数
核心前提	无，适用于任何序列	数据必须有序
实现复杂度	非常低，直观易懂	中等，边界条件是关键
空间复杂度	`O(1)`	`O(1)` (迭代) / `O(log n)` (递归)
STL 对等实现	`std::find`	`std::binary_search`, `std::lower_bound`等