了解KMP算法(包含BF算法，RK算法比较)-CSDN博客

本文链接：https://blog.csdn.net/zsy54577/article/details/139906131

算法核心：

KMP算法的核心是利用匹配失败后的信息，尽量减少模式串与主串的匹配次数以达到快速匹配的目的。
该算法通过预处理模式串P，生成一个next数组（也称为失败函数数组或偏移数组），用于在匹配失败时指示模式串P的下一个起始比对位置。

KMP算法与BF算法,RK算法比较：

BF算法（Brute Force算法）

基本思想：

BF算法是一种基本的字符串模式匹配算法，它通过遍历文本串，逐一比较字符来实现模式匹配。

优点：

简单易懂，实现起来相对容易。

缺点：

时间复杂度较高，为O(n*m)，其中n是文本串的长度，m是模式串的长度。对于较长的文本串和模式串，效率较低。只能用于查找单一的模式，对于多个模式的查找需要使用其他算法。

实际应用：

主要用于简单的文本搜索和模式匹配场景，如搜索引擎中的关键词匹配和搜索结果排序。

时间复杂度：

最理想的情况：O(m)（m是模式串的长度，即第一次匹配就成功的情况）。
一般情况下：O(n+m)（n是主串的长度，m是模式串的长度）。
最坏的情况：O(nm)（例如主串 S 为“000000000001”，模式串 T
为“001”，每次匹配时，直到匹配最后一个元素，才得知匹配失败，运行了 nm 次）。

空间复杂度：

O(1)（不需要额外的存储空间，只使用了几个变量）。

RK算法

基本思想：

RK算法通过比较字符串的哈希值来实现字符串匹配，其核心思想是把字符串转换为N进制的数字。

优点：

相对于BF算法，RK算法通过比较哈希值而不是逐个字符比较，可能减少一些不必要的比较操作。

缺点：

时间复杂度在理论上与BF算法相同或相近，因为哈希冲突的情况下仍然需要逐个字符比较。实现上可能较BF算法复杂，需要处理哈希冲突和哈希值的计算。

实际应用：

RK算法在某些特定场景下可能提高匹配效率，如当文本串和模式串很长时，哈希值的比较可能更快。但在实际应用中，RK算法并不如KMP算法等更高效的算法常用。

时间复杂度：

理论上：O(n*m)（当哈希冲突较多时，RK算法退化为BF算法）。
实际应用中：期望时间复杂度为O(m+n)，但在哈希冲突较多的情况下，可能接近BF算法的时间复杂度。

空间复杂度：

O(1)（只使用了几个变量和哈希值存储，不随输入规模增长）。

KMP算法

基本思想：

KMP算法是一种改进的字符串匹配算法，通过预处理模式串并生成一个next数组（也称为部分匹配表或偏移表），在匹配失败时能够知道模式串中哪些部分已经匹配成功，从而减少不必要的比较次数。

优点：

时间复杂度为O(n+m)，在平均情况下比BF算法和RK算法更快。适用于查找单一模式串的多个出现位置。

缺点：

实现上相对于BF算法和RK算法更复杂。

实际应用：

KMP算法在实际应用中非常广泛，如搜索引擎、文本编辑器、编译器等场景中的字符串搜索和匹配操作。

时间复杂度：

O(n+m)（n是主串的长度，m是模式串的长度）。这是因为KMP算法在匹配失败时，会根据之前已经匹配的部分信息，跳过一些不可能匹配的位置，从而减少了不必要的比较次数。

空间复杂度：

O(m)（需要额外的存储空间来存储模式串的next数组，该数组的大小与模式串的长度m相关）。

算法步骤：

构造Next数组

def GenerateNext(p: str):
```
生成KMP算法中的next数组
参数:
p (str): 模式串
返回:
list: next数组，表示模式串p的每个位置的最长公共前后缀长度（不包括前缀本身）
"""
m = len(p)
next = [0 for _ in range(m)]  # 初始化next数组，长度为模式串p的长度
left = 0  # left用于在模式串p中定位最长公共前后缀的前缀末尾
# 从第二个字符开始计算next数组
for right in range(1, m):
    # 当left大于0且当前字符不匹配时，移动left
    while left > 0 and p[right] != p[left]:
        left = next[left - 1]
        # 如果当前字符匹配，则left向右移动
    if p[right] == p[left]:
        left = left + 1
        # 将left的值赋给next[right]
    next[right] = left
return next

在这里插入图片描述
图片来自https://github.com/datawhalechina/leetcode-notes

KMP算法实现

def KMP(t: str, q: str):
    """
    KMP算法，用于在文本串t中查找模式串q
    参数:
    t (str): 文本串
    q (str): 模式串
    返回:
    int: 如果找到模式串q，则返回q在t中首次出现的起始位置（索引从0开始）；否则返回-1
    """
    next = GenerateNext(q)  # 生成模式串q的next数组
    i = 0  # i用于在模式串q中定位当前匹配的位置
    # 遍历文本串t
    for j in range(len(t)):  # 注意这里从0开始遍历，因为可能第一个字符就匹配
        # 当i大于0且当前字符不匹配时，移动i
        while i > 0 and q[i] != t[j]:
            i = next[i - 1]
            # 如果当前字符匹配，则i向右移动
        if q[i] == t[j]:
            i = i + 1
            # 如果整个模式串都匹配，则返回匹配位置
            if (i == len(q)):
                return j - len(q) + 1  # 返回匹配开始的索引位置
    # 如果没有找到匹配的模式串，返回-1
    return -1