算法基础(09)— 字符串常用操作

1. 字符串定义

字符串 string 是由 n 个字符组成的一个有序整体 n >= 0。例如,s = "BEIJING"s 代表这个串的串名,BEIJING 是串的值。这里的双引号不是串的值,作用只是为了将串和其他结构区分开。

在实际操作中,我们经常会用到一些特殊的字符串:​

  • 空串,指含有零个字符的串。例如,s = "",书面中也可以直接用 Ø 表示。

  • 空格串,只包含空格的串。它和空串是不一样的,空格串中是有内容的,只不过包含的是空格,且空格串中可以包含多个空格。例如,s = " ",就是包含了 3 个空格的字符串。

  • 子串,串中任意连续字符组成的字符串叫作该串的子串。

  • 原串通常也称为主串。例如:a = "BEI"b = "BEIJING"c = "BJINGEI"

  1. 对于字符串 ab 来说,由于 b 中含有字符串 a ,所以可以称 ab 的子串,ba 的主串;
  2. 而对于 ca 而言,虽然 c 中也含有 a 的全部字符,但不是连续的 BEI ,所以串 ca 没有任何关系。

2. 字符串基本操作

字符串和线性表的操作很相似,但由于字符串针对的是字符集,所有元素都是字符,因此字符串的基本操作与线性表有很大差别。线性表更关注的是单个元素的操作,比如增删查一个元素,而字符串中更多关注的是查找子串的位置、替换等操作。

2.1 新增字符串

字符串的新增操作和数组非常相似,都牵涉对插入字符串之后字符的挪移操作,所以时间复杂度是 O(n)

2.2 删除字符串

字符串的删除操作和数组同样非常相似,也可能会牵涉删除字符串后字符的挪移操作,所以时间复杂度是 O(n)

2.3 查找字符串

字符串的查找操作,是一个高频问题。

例如,字符串 s = "goodgoogle",判断字符串 t = "google"s 中是否存在。需要注意的是,如果字符串 t 的每个字符都在 s 中出现过,这并不能证明字符串 ts 中出现了。例如当 t = "dog" 时,那么字符 dog 都在 s 中出现过,但他们并不连在一起。

2.3.1 查找子串

首先,我们来定义两个概念,主串和模式串。我们在字符串 A 中查找字符串 B,则 A 就是主串,B 就是模式串。我们把主串的长度记为 n,模式串长度记为 m。由于是在主串中查找模式串,因此,主串的长度肯定比模式串长,n>m。因此,字符串匹配算法的时间复杂度就是 nm 的函数。

假设要从主串 s = "goodgoogle" 中找到 t = "google" 子串。根据我们的思考逻辑,则有:

  • 首先,我们从主串 s 第 1 位开始,判断 s 的第 1 个字符是否与 t 的第 1 个字符相等;
  • 如果不相等,则继续判断主串的第 2 个字符是否与 t的第 1 个字符相等。直到在 s 中找到与 t 第一个字符相等的字符时,然后开始判断它之后的字符是否仍然与 t 的后续字符相等;
  • 如果持续相等直到 t 的最后一个字符,则匹配成功;
  • 如果发现一个不等的字符,则重新回到前面的步骤中,查找 s 中是否有字符与 t的第一个字符相等;
  • 如下图所示,s 的第 1 个字符和 t 的第 1 个字符相等,则开始匹配后续。直到发现前三个字母都匹配成功,但 s 的第 4 个字母匹配失败,则回到主串继续寻找和 t 的第一个字符相等的字符;
  • 如下图所示,这时我们发现主串 s 第 5 位开始相等,并且随后的 6 个字母全匹配成功,则找到结果。

字符串查找

这种匹配算法需要从主串中找到跟模式串的第 1 个字符相等的位置,然后再去匹配后续字符是否与模式串相等。显然,从实现的角度来看,需要两层的循环。第一层循环,去查找第一个字符相等的位置,第二层循环基于此去匹配后续字符是否相等。因此,这种匹配算法的时间复杂度为 O(nm)。其代码如下:

是否包含子串的代码,其中 a 为主串, b 为子串。

#include <iostream>
#include <string>

int main()
{
    std::string a;
    std::string b;
    getline(std::cin, a);
    getline(std::cin, b);
    int is_find = 0;
    
    for(int i=0; i<a.length(); i++)
    {
        if(a[i] == b[0])
        {
            int sub_str_length = 0;
            for(int j=0; j<b.length(); j++)
            {
                if(a[i+j] != b[j])
                {
                    break;
                }
                sub_str_length = j;
            }
            
            if(sub_str_length == b.length() -1)
            {
                is_find = 1;
            }
        }
    }
    std::cout << is_find << std::endl;
}

2.3.2 公共子串计算

假设有且仅有 1 个最大公共子串。比如,输入 a = "13452439"b = "123456"。由于字符串 "345" 同时在 ab 中出现,且是同时出现在 ab 中的最长子串。因此输出 "345"

对于这个问题有两种解决思路:

  1. 使用动态规划来解决;
  2. 使用前面介绍的匹配算法;

在这里我们沿用前面的匹配算法。

假设字符串 a 的长度为 n,字符串 b 的长度为 m,可见时间复杂度是 nm 的函数。

  • 首先,你需要对于字符串 ab 找到第一个共同出现的字符,这跟前面讲到的匹配算法在主串中查找第一个模式串字符一样;
  • 然后,一旦找到了第一个匹配的字符之后,就可以同时在 ab 中继续匹配它后续的字符是否相等。这样 ab 中每个互相匹配的字串都会被访问一遍。全局还要维护一个最长子串及其长度的变量,就可以完成了。

从代码结构来看,第一步需要两层的循环去查找共同出现的字符,这就是 O(nm)。一旦找到了共同出现的字符之后,还需要再继续查找共同出现的字符串,这也就是又嵌套了一层循环。可见最终的时间复杂度是 O(nmm),即 O(nm²)。代码如下:

#include <iostream>
#include <string>

int main()
{
    std::string a;
    std::string b;
    getline(std::cin, a);
    getline(std::cin, b);
    int max_len = 0;
    std::string sub_str = "";

    for(int i=0; i<a.length(); i++)
    {
        for(int j=0; j<b.length(); j++)
        {
            if(a[i] == b[j])
            {
                for(int m=i, n=j; m<a.length(), n<b.length(); m++, n++)
                {
                    if(a[m] != b[n])
                    {
                        break;
                    }
                    if((m - i + 1) > max_len)
                    {
                        max_len = m - i + 1;
                        sub_str = a.substr(i, m+1);
                    }
                }
            }
        }
    }
    std::cout << max_len << std::endl;
    std::cout << sub_str << std::endl;
}
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

wohu007

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值