C语言经典算法之Boyer-Moore算法

JJJ69

于 2024-03-05 11:17:10 发布

阅读量868

点赞数 19

分类专栏： C语言经典算法文章标签：算法 c语言数据结构开发语言

本文链接：https://blog.csdn.net/weixin_56154577/article/details/136471037

版权

C语言经典算法专栏收录该内容

160 篇文章 13 订阅

订阅专栏

本文详细介绍了Boyer-Moore算法的代码实现，探讨了其时间复杂度（最坏O(n*m)，实际接近线性）和空间复杂度（O(1)），并分析了算法的优缺点。着重讲述了算法在现实世界中的广泛应用，如文本编辑器、编译器、数据压缩、搜索引擎等。

摘要由CSDN通过智能技术生成

前言

A.建议:

1.学习算法最重要的是理解算法的每一步，而不是记住算法。

2.建议读者学习算法的时候，自己手动一步一步地运行算法。

B.简介:

Boyer-Moore算法是一种高效的字符串搜索算法，用于在一个大的文本串中查找给定的模式串。它通过利用已匹配字符的信息来决定下次比较的位置，从而极大地减少了无效的字符比较次数。

一代码实现

#include <stdio.h>
#include <string.h>

// 定义一个结构体存储跳转表信息
typedef struct {
    int bad_char[256]; // 坏字符规则跳转表
    int good_suffix[256]; // 简化版的好后缀规则跳转表
} BMTable;

// 初始化坏字符规则跳转表
void init_bad_char_table(const char *pattern, BMTable *table) {
    int m = strlen(pattern);
    for (int i = 0; i < 256; ++i)
        table->bad_char[i] = -1;
    for (int i = 0; i < m - 1; ++i)
        table->bad_char[pattern[i]] = i;
    table->bad_char[pattern[m - 1]] = m - 1; // 最后一个字符默认跳到末尾
}

// 简化版的好后缀规则，这里仅给出一种特殊情况下的处理
// 实际上好的后缀规则复杂度更高，可以进一步细化为通用后缀规则和主后缀规则
void init_good_suffix_table(const char *pattern, BMTable *table) {
    int m = strlen(pattern);
    // 简化处理，这里仅设置所有后缀都向右移动一个位置
    for (int i = 0; i < 256; ++i)
        table->good_suffix[i] = 1;
    // ... 实际情况需要更复杂的逻辑填充这个表 ...
}

// Boyer-Moore算法主体部分
int boyer_moore_search(const char *text, const char *pattern, BMTable *table) {
    int n = strlen(text);
    int m = strlen(pattern);
    
    while (n >= m) {
        int i = m - 1; // 从模式串末尾开始比较
        
        // 比较直到找到不匹配的字符或完全匹配
        while (i >= 0 && pattern[i] == text[n - i]) {
            --i;
        }
        
        if (i < 0) { // 完全匹配
            return n - m; // 返回匹配起始索引
        } else {
            // 根据跳转表确定下一个待匹配的位置
            int shift;
            if ((shift = table->bad_char[text[n - i]]) > -1) {
                n -= i + 1; // 使用坏字符规则移动
                n -= shift; // 跳过尽可能多的字符
            } else if ((shift = table->good_suffix[m - i - 1]) > 0) {
                n -= shift; // 使用好后缀规则移动
            } else {
                n--; // 如果两种规则都无法应用，则简单地向前移动一位
            }
        }
    }

    return -1; // 若未找到则返回-1
}

int main() {
    char text[] = "This is a sample text with some patterns.";
    char pattern[] = "patterns";
    BMTable table;

    init_bad_char_table(pattern, &table);
    //init_good_suffix_table(pattern, &table); // 注释掉这一行是简化版，实际应用时应启用

    int index = boyer_moore_search(text, pattern, &table);
    if (index != -1) {
        printf("Pattern found at index: %d\n", index);
    } else {
        printf("Pattern not found in the text.\n");
    }

    return 0;
}

上述代码仅为Boyer-Moore算法的一个基本实现框架，并未包括完整的好后缀规则。在实际应用中，好后缀规则通常会根据模式串的具体内容进行更为细致的状态划分和处理，以达到更高的效率。此外，Boyer-Moore家族还有多种变种，例如Boyer-Moore-Horspool算法，它的实现相对简单且常用于对性能要求不是极端苛刻但又需高效的情况。

二时空复杂度

Boyer-Moore算法在字符串搜索问题中是一种非常高效的算法，它的时间复杂度和空间复杂度表现如下：

A.时间复杂度：

在最坏情况下，Boyer-Moore算法的时间复杂度为O(n * m)，其中n是文本串的长度，m是模式串的长度。然而，由于其利用了坏字符规则和好后缀规则等优化策略，在实际应用中，Boyer-Moore算法通常能够跳过大量不必要的字符比较，从而比简单逐字符匹配算法更快，性能上接近或达到线性时间复杂度。

在最好的情况下（例如当模式串均匀分布在文本中时），算法可以迅速定位到目标模式串，此时的平均时间复杂度远低于最坏情况下的O(n * m)。

B.空间复杂度：

Boyer-Moore算法的空间复杂度主要来自于两个预处理步骤中的跳转表：

坏字符规则跳转表：存储的是每个可能字符在模式串中最右出现的位置，大小固定为字符集大小，对于ASCII字符集来说就是256个单元，因此空间复杂度为O(1)。
好后缀规则跳转表：根据不同的实现方式，空间复杂度可能会更高，但也是常数级别的空间复杂度。

综合起来，Boyer-Moore算法的空间复杂度也常常被认为是O(1)，因为它不依赖于输入字符串的具体长度，而是与字符集大小有关且为定值。

C.总结：

总之，Boyer-Moore算法以其高效性著称，尤其适合于处理大规模文本中的模式搜索问题，具有良好的时间和空间效率。

三优缺点

Boyer-Moore算法在字符串搜索领域具有显著的优势，同时也存在一些局限性。以下是该算法的主要优缺点：

A.优点：

高效性：Boyer-Moore算法通过利用模式串的后缀信息以及提前计算出坏字符规则和好后缀规则（或其变种）的跳转表，能够快速跳过不必要的字符比较，减少无效搜索次数，在实践中通常比简单的线性扫描方法更快。其平均性能远高于最坏情况下的时间复杂度。
无需回溯：与KMP等算法不同，Boyer-Moore在匹配过程中一旦发生不匹配，可以直接依据预处理得到的跳转表确定下一个起始位置，不需要回退到之前已匹配的部分重新开始比较。
空间效率：虽然需要额外的空间来存储跳转表，但这些表的大小并不依赖于文本串的长度，而是与字符集大小有关，因此对于大部分应用而言，空间开销是常数级别的，即O(1)。
易于理解：虽然Boyer-Moore算法的优化原理可能较复杂，但基本思想相对直观，即尽可能地利用已知信息向前跳过无法匹配的位置。

B.缺点：

预处理成本：为了实现高效的搜索，必须先构建坏字符规则和好后缀规则的跳转表，这一步骤有一定的计算成本，尤其是对于大型模式串。
内存占用：虽然相对于文本串长度来说，跳转表的内存消耗较小，但在极端情况下，例如处理大字符集时，跳转表可能会占用一定量的内存资源。
特定场景下效率受限：如果模式串中的字符分布均匀或者缺乏可以有效利用的规律，Boyer-Moore算法的优势可能不如在某些特定分布的模式串中那么明显。
对长后缀的处理：对于含有相同后缀的模式串，特别是当后缀很长时，算法的好后缀规则部分可能会导致效率降低。

C.总结：

综上所述，Boyer-Moore算法尤其适合于大规模文本搜索任务，且在实际应用中表现出色，但也有在特定条件下效率不如其他算法的情况。

四现实中的应用

Boyer-Moore算法在现实中的应用广泛，尤其适用于那些需要高效查找子字符串的场景。以下是该算法在实际中的一些典型应用：

文本编辑器和IDE（集成开发环境）：
- 搜索和替换功能：当你在Word、Notepad++、Visual Studio Code等软件中使用“查找”或“搜索替换”功能时，底层很可能就采用了Boyer-Moore算法来快速定位到文档中的特定文本。
编译器和解释器：
- 词法分析和语法分析阶段：编译器在处理源代码时，需要识别关键字、标识符和其他语言元素，Boyer-Moore算法可以高效地帮助确定这些模式是否出现在输入流中。
数据压缩工具：
- 在构建字典或者进行数据匹配以实现压缩编码时，Boyer-Moore算法可以帮助快速查找是否存在重复的数据片段。
网络爬虫和搜索引擎：
- 网页抓取过程中，Boyer-Moore可用于快速检索网页内容中包含的目标关键词。
- 搜索引擎索引构建过程中，在处理大量文本数据时，用于快速找出文档中包含特定词汇的位置。
生物信息学：
- 序列比对：在DNA、RNA或蛋白质序列分析中，Boyer-Moore算法可以用于快速查找给定的基因或氨基酸序列是否存在于数据库中的其他序列之中。
安全领域：
- 恶意代码检测：通过扫描文件内容，查找恶意特征串，如病毒签名或恶意URL。
日志分析工具：
- 日志记录系统常常需要根据关键词筛选或提取相关事件，Boyer-Moore算法能加快搜索速度。
大数据处理：
- 处理大规模文本数据集时，例如在Hadoop或其他大数据框架中，对于含有大量文本记录的处理任务，可借助Boyer-Moore算法提高数据过滤与挖掘效率。