重复的DNA序列

DNA序列 由一系列核苷酸组成,缩写为 'A', 'C', 'G' 和 'T'.。

例如,"ACGAATTCCG" 是一个 DNA序列 。
在研究 DNA 时,识别 DNA 中的重复序列非常有用。

给定一个表示 DNA序列 的字符串 s ,返回所有在 DNA 分子中出现不止一次的 长度为 10 的序列(子字符串)。你可以按 任意顺序 返回答案。

示例 1:

输入:s = "AAAAACCCCCAAAAACCCCCCAAAAAGGGTTT"
输出:["AAAAACCCCC","CCCCCAAAAA"]

示例 2:

输入:s = "AAAAAAAAAAAAA"
输出:["AAAAAAAAAA"]

示例代码1: 【哈希表】

from collections import defaultdict


class Solution(object):
    def findRepeatedDnaSequences(self, s):
        l = 10
        dic = defaultdict(int)
        ans = []
        for i in range(len(s) - l + 1):
            res = s[i:i + l]
            dic[res] += 1
            if dic[res] == 2:
                ans.append(res)
        return ans


s = "AAAAACCCCCAAAAACCCCCCAAAAAGGGTTT"
obj = Solution()
ret = obj.findRepeatedDnaSequences(s)
print(ret)

思路分析:

  • 使用哈希表统计 s 所有长度为 10的子串的出现次数,返回所有出现次数超过 10的子串。
  • 代码实现时,一边遍历子串一边记录答案,为了不重复记录答案,只统计当前出现次数为 2 的子串。

复杂度分析:

  • 时间复杂度:O(NL),其中 N 是字符串s 的长度,L=10即目标子串的长度。
  • 空间复杂度:O(NL)。

示例代码2:  【滑动窗口】

class Solution(object):
    def findRepeatedDnaSequences(self, s):
        l = 10
        if len(s) < l:
            return []
        ans, window = set(), set()
        for i in range(len(s) - l + 1):
            tmp = s[i:i + l]
            if tmp not in window:
                window.add(tmp)
            else:
                ans.add(tmp)
        return list(ans)


s = "AAAAACCCCCAAAAACCCCCCAAAAAGGGTTT"
s = "AAAAAAAAAAA"
obj = Solution()
ret = obj.findRepeatedDnaSequences(s)
print(ret)
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值