Leetcode刷题04-字符串

最新推荐文章于 2023-06-26 20:44:41 发布

includeSteven

最新推荐文章于 2023-06-26 20:44:41 发布

阅读量1.8k

点赞数

文章标签： leetcode 算法职场和发展

本文链接：https://blog.csdn.net/weixin_47802917/article/details/123053493

版权

本文介绍了字符串的基础知识，包括字符串的定义、比较和存储结构。重点讨论了字符串匹配问题，如KMP算法，以及单模式串和多模式串匹配的算法思想。此外，还解析了几道LeetCode上关于字符串的题目，包括验证回文串、翻转字符串里的单词等，提供了解题思路和代码实现。

摘要由CSDN通过智能技术生成

字符串

基础知识

简介

1.介绍

字符串：简称为串，是由零个或多个字符组成的有限序列。一般记为s = “a1a2…an”

字符串名称：字符串定义中的s就是字符串的名称
字符串的值："a1a2…an"组成的字符序列就是字符串的值，一般用双引号括起来
字符变量：字符串每一个位置上的元素都是一个字符变量。字符ai可以是字母、数字或者其他字符。i是该字符在字符串中的位置。
字符串的长度：字符串中字符的数目n称为字符串的长度
空串：零个字符构成的串也称为空字符串，它的长度为0，可以表示为""
子串：字符串中任意个连续的字符组成的子序列称为该字符串的子串。并且有两种特殊子串，为前缀和后缀
主串：包含子串的字符串相应的称为主串

根据字符串的特点，可以将字符串问题分为以下几种：

字符串匹配问题
子串相关问题
前缀/后缀相关问题
回文串相关问题
子序列相关问题

2.字符串的比较

字符串之间的比较是通过组成字符串的字符之间的字符编码来决定的，而字符编码指的是字符在对应字符集中的序号。

def strcmp(str1, str2):
    index1, index2 = 0, 0
    while index1 < len(str1) and index2 < len(str2):
        if ord(str1[index1]) == ord(str2[index2]):
            index1 += 1
            index2 += 2
        elif ord(str1[index1]) < ord(str2[index2]):
            return -1
        else:
            return 1
    
    if len(str1) < len(str2):
        return -1
    elif len(str1) > len(str2):
        return 1
    else:
        return 0

字符编码：计算机中常用字符使用的是ASCII码，但是只能解决以英文为主的语言。为了解决中文编码，我国制定了GB2312、GBK、GB18030等中文编码标准，为了解决全世界语言问题，出现了Unicode编码，常见的Unicode编码是UTF-8，把一个Unicode字符根据不同的数字大小编码成1-6个字节，常用的英文字母被编码成1个字节，汉字通常是3个字节。

3.字符串的存储结构

字符串的存储结构跟线性表相同，分为顺序存储结构和链式存储结构

在这里插入图片描述

字符串匹配问题

字符串匹配：又称模式匹配。可以简单理解为，给定字符串T和p，在主串T中寻找子串p。主串T被称为文本串，子串p称为模式串。

根据模式串的个数，字符串匹配问题分为单模式串匹配问题和多模式串匹配问题。

1.单模式串匹配问题

定义：给定一个文本串T=t1t2…tn，再给定一个特定模式串p=p1p2…pn.要求从文本串T找出特定模式串p的所有出现位置。

基于前缀搜索方法：在搜索窗口内从前向后逐个读入文本字符，搜索窗口中文本和模式串的最长公共前缀。
- 著名的KMP算法和更快的Shift-Or算法使用的就是这种方法。
基于后缀搜索方法：在搜索窗口内从后向前（沿着文本的反向）逐个读入文本字符，搜索窗口中文本和模式串的最长公共后缀。使用这种搜索算法可以跳过一些文本字符，从而具有亚线性的平均时间复杂度。
- 著名的BM算法、Horspool算法、Sunday算法都是用了这种方法
基于子串搜索方法：在搜索窗口从后向前逐个读入文本字符，搜索满足既是窗口中文本的后缀，也是模式串的子串的最长字符串。该方法也具有亚线性的平均时间复杂度。主要缺点在于需要识别模式串的所有子串，这是一个非常复杂的问题。
- Rabin-Karp算法、BDM算法、BNDM算法和BOM算法使用的是这种思想，其中Rabin-Karp算法使用了基于散列的子串搜索算法。

2.多模式串匹配问题

在这里插入图片描述

多模式匹配算法大多使用了一种基本的数据结构：字典树（Trie）。著名的AC自动机就是在KMP算法的基础上，与字典树结构相结合诞生的。而AC自动机算法也是多模式串匹配算法中最有效的算法之一。

所以学习多模式匹配算法，重点是掌握字典树和AC自动机算法。

3.单模式串朴素匹配算法

Brute Force算法：暴力匹配算法，也可以叫做朴素匹配算法。

BF算法思想：

在这里插入图片描述

def bruteForce(T: str, p: str) -> int:
    n, m = len(T), len(p)
    
    i, j = 0, 0
    while i < n and j < m:
        if T[i] == p[j]:
            i += 1
            j += 1
        else:
            i = i - (j - 1)
            j = 0
    if j == m:
        return i - j
    return -1

最坏时间复杂度为O(m * n)，最理想时间复杂度为O(m)，平均时间复杂度O(n + m)

4.单模式串KMP匹配算法

KMP算法思想：对于给定文本串T与模式串p，当发现文本串T的某个字符与模式串p不匹配的时候，可以利用匹配失败后的信息，尽量减少模式串与文本串的匹配次数，避免文本串位置的回退，以达到快速匹配的目的。

朴素匹配算法的缺陷：当文本串与模式串某个字符不匹配时，指向文本串的指针i需要回退到之前匹配开始位置的下一个位置。

KMP算法的改进：利用了每一次匹配失败的信息，主串的某个子串等于模式串的某一个前缀。也就是T[i: i + j] == p[0: j]

在这里插入图片描述

KMP算法利用了匹配失败的信息，对模式串p进行了预处理，计算出一个部分匹配表，用一个数组next记录。在每次匹配失败时，不回退文本串的指针i，而是根据next数组中匹配失败j的前一个位置的值，即next[j - 1]来决定模式串可以向右移动的位数。

比如上述示例中模式串p在j=5匹配失败，则说明文本中子串T[i: i + 5]和模式串p[0: 5]字符一致，根据部分匹配表中next[4] = 2，所以不用回退i，而是将j移动到下标为2的位置，让T[i + 5]对准p[2]继续比对。

在这里插入图片描述

def generateNext(p: str):
    m = len(p)
    next = [0 for _ in range(m)]
    
    left = 0
    for right in range(1, m):
        while left > 0 and p[left] != p[right]:
            left = next[left - 1]
        if p[left] == p[right]:
            left += 1
        next[right]