每日一题(7)

最新推荐文章于 2024-08-02 20:41:30 发布

nikelee233

最新推荐文章于 2024-08-02 20:41:30 发布

阅读量60

点赞数

分类专栏：每日一题文章标签： DNA序列重复子串算法位运算 unordered_map

本文链接：https://blog.csdn.net/weixin_43665653/article/details/120659113

版权

每日一题专栏收录该内容

22 篇文章 0 订阅

订阅专栏

题目：重复的DNA序列

题目描述

所有 DNA 都由一系列缩写为 ‘A’，‘C’，‘G’ 和 ‘T’ 的核苷酸组成，例如：“ACGAATTCCG”。在研究 DNA 时，识别 DNA 中的重复序列有时会对研究非常有帮助。

编写一个函数来找出所有目标子串，目标子串的长度为 10，且在 DNA 字符串 s 中出现次数超过一次。

解题思路

从第一个开始十个字符可能存在重复，从第二个开始十个字符也可能存在重复，以此类推，每十个都有可能，直到倒数第十个
整一个map，十个单词为一组放到set里边;
上面的方法内存空间占用大，可以使用数来表示一个字符，通过使用int的低20位表示十个字符串

代码

class Solution {
public:
    vector<string> findRepeatedDnaSequences(string s) {
        unordered_map<string,int> m;
        vector<string> res;
        int l=s.size();
        for(int i=0;i<=l-10;++i)
        {
            string str=s.substr(i,10);
            if(++m[str]==2)
            {
                res.push_back(str);
            }
        } 
        return res;
    }
};

class Solution {
public:
    vector<string> findRepeatedDnaSequences(string s) {
        vector<string> res;
        int l=s.size();
        if(l<=10)
            return res;
        int x=0;
        unordered_map<char,int> bin{{'A',0},{'C',1},{'G',2},{'T',3}};

        for(int i=0;i<9;++i)
        {
            x=(x<<2)|bin[s[i]]; // 每次用2bit表示一个字符，先到第9个字符
        }
        unordered_map<int,int> m;
        for(int i=0;i<=l-10;++i){
            x=((x<<2)|bin[s[i+10-1]])&((1<<20)-1); // (1<<20)-1 可以使低20位全为1，这样就可以取x的低20位了
            if(++m[x]==2)
            {
                res.push_back(s.substr(i,10));
            }
        }
        return res;
    }
};

nikelee233

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
每日一题(7)

题目：重复的DNA序列题目描述所有 DNA 都由一系列缩写为 ‘A’，‘C’，‘G’ 和 ‘T’ 的核苷酸组成，例如：“ACGAATTCCG”。在研究 DNA 时，识别 DNA 中的重复序列有时会对研究非常有帮助。编写一个函数来找出所有目标子串，目标子串的长度为 10，且在 DNA 字符串 s 中出现次数超过一次。解题思路从第一个开始十个字符可能存在重复，从第二个开始十个字符也可能存在重复，以此类推，每十个都有可能，直到倒数第十个整一个map，十个单词为一组放到set里边;上面的方法内存空间占
复制链接

扫一扫

专栏目录