了解KMP算法(包含BF算法,RK算法比较)

算法核心:

  • KMP算法的核心是利用匹配失败后的信息,尽量减少模式串与主串的匹配次数以达到快速匹配的目的。
  • 该算法通过预处理模式串P,生成一个next数组(也称为失败函数数组或偏移数组),用于在匹配失败时指示模式串P的下一个起始比对位置。

KMP算法与BF算法,RK算法比较:

BF算法(Brute Force算法)

基本思想:

BF算法是一种基本的字符串模式匹配算法,它通过遍历文本串,逐一比较字符来实现模式匹配。

优点:

简单易懂,实现起来相对容易。

缺点:

时间复杂度较高,为O(n*m),其中n是文本串的长度,m是模式串的长度。对于较长的文本串和模式串,效率较低。只能用于查找单一的模式,对于多个模式的查找需要使用其他算法。

实际应用:

主要用于简单的文本搜索和模式匹配场景,如搜索引擎中的关键词匹配和搜索结果排序。

时间复杂度:

  • 最理想的情况:O(m)(m是模式串的长度,即第一次匹配就成功的情况)。
  • 一般情况下:O(n+m)(n是主串的长度,m是模式串的长度)。
  • 最坏的情况:O(nm)(例如主串 S 为“000000000001”,模式串 T
    为“001”,每次匹配时,直到匹配最后一个元素,才得知匹配失败,运行了 nm 次)。

空间复杂度:

O(1)(不需要额外的存储空间,只使用了几个变量)。

RK算法

基本思想:

RK算法通过比较字符串的哈希值来实现字符串匹配,其核心思想是把字符串转换为N进制的数字。

优点:

相对于BF算法,RK算法通过比较哈希值而不是逐个字符比较,可能减少一些不必要的比较操作。

缺点:

时间复杂度在理论上与BF算法相同或相近,因为哈希冲突的情况下仍然需要逐个字符比较。实现上可能较BF算法复杂,需要处理哈希冲突和哈希值的计算。

实际应用:

RK算法在某些特定场景下可能提高匹配效率,如当文本串和模式串很长时,哈希值的比较可能更快。但在实际应用中,RK算法并不如KMP算法等更高效的算法常用。

时间复杂度:

理论上:O(n*m)(当哈希冲突较多时,RK算法退化为BF算法)。
实际应用中:期望时间复杂度为O(m+n),但在哈希冲突较多的情况下,可能接近BF算法的时间复杂度。

空间复杂度:

O(1)(只使用了几个变量和哈希值存储,不随输入规模增长)。

KMP算法

基本思想:

KMP算法是一种改进的字符串匹配算法,通过预处理模式串并生成一个next数组(也称为部分匹配表或偏移表),在匹配失败时能够知道模式串中哪些部分已经匹配成功,从而减少不必要的比较次数。

优点:

时间复杂度为O(n+m),在平均情况下比BF算法和RK算法更快。适用于查找单一模式串的多个出现位置。

缺点:

实现上相对于BF算法和RK算法更复杂。

实际应用:

KMP算法在实际应用中非常广泛,如搜索引擎、文本编辑器、编译器等场景中的字符串搜索和匹配操作。

时间复杂度:

O(n+m)(n是主串的长度,m是模式串的长度)。这是因为KMP算法在匹配失败时,会根据之前已经匹配的部分信息,跳过一些不可能匹配的位置,从而减少了不必要的比较次数。

空间复杂度:

O(m)(需要额外的存储空间来存储模式串的next数组,该数组的大小与模式串的长度m相关)。

算法步骤:

构造Next数组

def GenerateNext(p: str):
```
生成KMP算法中的next数组
参数:
p (str): 模式串
返回:
list: next数组,表示模式串p的每个位置的最长公共前后缀长度(不包括前缀本身)
"""
m = len(p)
next = [0 for _ in range(m)]  # 初始化next数组,长度为模式串p的长度
left = 0  # left用于在模式串p中定位最长公共前后缀的前缀末尾
# 从第二个字符开始计算next数组
for right in range(1, m):
    # 当left大于0且当前字符不匹配时,移动left
    while left > 0 and p[right] != p[left]:
        left = next[left - 1]
        # 如果当前字符匹配,则left向右移动
    if p[right] == p[left]:
        left = left + 1
        # 将left的值赋给next[right]
    next[right] = left
return next

在这里插入图片描述
图片来自https://github.com/datawhalechina/leetcode-notes

KMP算法实现

def KMP(t: str, q: str):
    """
    KMP算法,用于在文本串t中查找模式串q
    参数:
    t (str): 文本串
    q (str): 模式串
    返回:
    int: 如果找到模式串q,则返回q在t中首次出现的起始位置(索引从0开始);否则返回-1
    """
    next = GenerateNext(q)  # 生成模式串q的next数组
    i = 0  # i用于在模式串q中定位当前匹配的位置
    # 遍历文本串t
    for j in range(len(t)):  # 注意这里从0开始遍历,因为可能第一个字符就匹配
        # 当i大于0且当前字符不匹配时,移动i
        while i > 0 and q[i] != t[j]:
            i = next[i - 1]
            # 如果当前字符匹配,则i向右移动
        if q[i] == t[j]:
            i = i + 1
            # 如果整个模式串都匹配,则返回匹配位置
            if (i == len(q)):
                return j - len(q) + 1  # 返回匹配开始的索引位置
    # 如果没有找到匹配的模式串,返回-1
    return -1

总结

我们可以看到KMP算法在字符串匹配领域具有重要地位,其高效的匹配速度和广泛的应用场景使其成为计算机科学领域的一个经典算法。

参考资料

从头到尾彻底理解 KMP - 结构之法 算法之道 - CSDN博客
https://github.com/datawhalechina/leetcode-notes
自律每一天,fighting

  • 24
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值