哈希表2——有效的字母异位词

最新推荐文章于 2024-08-08 16:37:46 发布

joker-wt

最新推荐文章于 2024-08-08 16:37:46 发布

阅读量103

点赞数

分类专栏：算法刷题文章标签：散列表 leetcode 数据结构

本文链接：https://blog.csdn.net/wtlll/article/details/125366141

版权

算法刷题专栏收录该内容

54 篇文章 2 订阅

订阅专栏

有效的字母异位词

例题
- 力扣题目链接：[https://leetcode.cn/problems/valid-anagram/](https://leetcode.cn/problems/valid-anagram/)
- 题目说明：
解题方法

例题

力扣题目链接：https://leetcode.cn/problems/valid-anagram/

题目说明：

给定两个字符串 s 和 t ，编写一个函数来判断 t 是否是 s 的字母异位词。
注意：若 s 和 t 中每个字符出现的次数都相同，则称 s 和 t 互为字母异位词。

示例 1:

输入: s = "anagram", t = "nagaram"
输出: true

示例 2:

输入: s = "rat", t = "car"
输出: false

提示:

1 <= s.length, t.length <= 5 * 104
s 和 t 仅包含小写字母

进阶: 如果输入字符串包含 unicode 字符怎么办？你能否调整你的解法来应对这种情况

解题方法

方法一：排序

$t$ 是 $s$ 的异位词等价于 $「两个字符串排序后相等」$ 。因此我们可以对字符串 $s$ 和 $t$ 分别排序，看排序后的字符串是否相等即可判断。此外，如果 $s$ 和 $t$ 的长度不同， $t$ 必然不是 $s$ 的异位词。

代码：

C++

class Solution {
public:
    bool isAnagram(string s, string t) {
        if (s.length() != t.length()) {
            return false;
        }
        sort(s.begin(), s.end());
        sort(t.begin(), t.end());
        return s == t;
    }
};

复杂度分析

时间复杂度： $\log n)$ ，其中 $n$ 为 $s$ 的长度。排序的时间复杂度为 $O(n\log n)$ ，比较两个字符串是否相等时间复杂度为 $O (n)$ ，因此总体时间复杂度为 $\log n+n)=O(n\log n)$ 。

空间复杂度： $O(\log n)$ 。排序需要 $O(\log n)$ 的空间复杂度。注意，在某些语言（比如 Java & JavaScript）中字符串是不可变的，因此我们需要额外的 $O (n)$ 的空间来拷贝字符串。但是我们忽略这一复杂度分析，因为：

这依赖于语言的细节；
这取决于函数的设计方式，例如，可以将函数参数类型更改为 char[]。

方法二：哈希表

从另一个角度考虑， $t$ 是 $s$ 的异位词等价于两个字符串中字符出现的种类和次数均相等。由于字符串只包含 $26$ 个小写字母，因此我们可以维护一个长度为 $26$ 的频次数组 $\textit{table}$ ，先遍历记录字符串 $s$ 中字符出现的频次，然后遍历字符串 $t$ ，减去 $\textit{table}$ 中对应的频次，如果出现 $\textit{table}[i]<0$ ，则说明 $t$ 包含一个不在 $s$ 中的额外字符，返回 $\text{false}$ 即可。

class Solution {
public:
    bool isAnagram(string s, string t) {
        if (s.length() != t.length()) {
            return false;
        }
        vector<int> table(26, 0);
        for (auto& ch: s) {
            table[ch - 'a']++;
        }
        for (auto& ch: t) {
            table[ch - 'a']--;
            if (table[ch - 'a'] < 0) {
                return false;
            }
        }
        return true;
    }
};

对于进阶问题， $\text{Unicode}$ 是为了解决传统字符编码的局限性而产生的方案，它为每个语言中的字符规定了一个唯一的二进制编码。而 $\text{Unicode}$ 中可能存在一个字符对应多个字节的问题，为了让计算机知道多少字节表示一个字符，面向传输的编码方式的 $\text{UTF-8}$ 和 $\text{UTF-16}$ 也随之诞生逐渐广泛使用，具体相关的知识读者可以继续查阅相关资料拓展视野，这里不再展开。

回到本题，进阶问题的核心点在于「字符是离散未知的」，因此我们用哈希表维护对应字符的频次即可。同时读者需要注意 $\text{Unicode}$ 一个字符可能对应多个字节的问题，不同语言对于字符串读取处理的方式是不同的。
java

class Solution {
    public boolean isAnagram(String s, String t) {
        if (s.length() != t.length()) {
            return false;
        }
        Map<Character, Integer> table = new HashMap<Character, Integer>();
        for (int i = 0; i < s.length(); i++) {
            char ch = s.charAt(i);
            table.put(ch, table.getOrDefault(ch, 0) + 1);
        }
        for (int i = 0; i < t.length(); i++) {
            char ch = t.charAt(i);
            table.put(ch, table.getOrDefault(ch, 0) - 1);
            if (table.get(ch) < 0) {
                return false;
            }
        }
        return true;
    }
}