LeetCode——187. 重复的DNA序列(Repeated DNA Sequences)[中等]——分析及代码（C++）

最新推荐文章于 2025-09-01 20:12:39 发布

原创

最新推荐文章于 2025-09-01 20:12:39 发布 · 741 阅读

CC 4.0 BY-SA版权

文章标签：

博客介绍了LeetCode中的一道中等难度问题——187. 重复DNA序列。通过位运算、滑动窗口和哈希表的方法，分析并提供了C++代码实现，该方法能在O(n)复杂度内找到所有重复的10个碱基的DNA子串。代码执行效率高，击败了大部分其他C++提交。

一、题目

所有 DNA 都由一系列缩写为 ‘A’，‘C’，‘G’ 和 ‘T’ 的核苷酸组成，例如：“ACGAATTCCG”。在研究 DNA 时，识别 DNA 中的重复序列有时会对研究非常有帮助。

编写一个函数来找出所有目标子串，目标子串的长度为 10，且在 DNA 字符串 s 中出现次数超过一次。

示例 1：

输入：s = "AAAAACCCCCAAAAACCCCCCAAAAAGGGTTT"
输出：["AAAAACCCCC","CCCCCAAAAA"]

示例 2：

输入：s = "AAAAAAAAAAAAA"
输出：["AAAAAAAAAA"]

提示：

来源：力扣（LeetCode）
链接：https://leetcode-cn.com/problems/repeated-dna-sequences
著作权归领扣网络所有。商业转载请联系官方授权，非商业转载请注明出处。

因为 DNA 中只有 4 种核苷酸，可将它们映射为 00、01、10、11 四个二进制数，使得 10 位的子串可直接通过 20 位二进制数表示。

设计一个长度为 10 的窗口，在 DNA 字符串中从左向右滑动，结合哈希表记录窗口中子串的出现次数，即可在 O(n) 复杂度内得到所有目标子串。

class Solution {
   
   
private:
    const int L = 10;//目标子串的长度
    unordered_map<char, int> nucleo =