题目描述
所有 DNA 由一系列缩写为 A,C,G 和 T 的核苷酸组成,例如:“ACGAATTCCG”。在研究 DNA 时,识别 DNA 中的重复序列有时会对研究非常有帮助。
编写一个函数来查找 DNA 分子中所有出现超多一次的10个字母长的序列(子串)。
示例:
输入: s = "AAAAACCCCCAAAAACCCCCCAAAAAGGGTTT"
输出: ["AAAAACCCCC", "CCCCCAAAAA"]
思路
这是一类题的常见做法,这类题通常要求
(1)是否有重复元素
(2)出现次数最多的元素
(3)字符串的唯一性,只出现一次的字符数字等等
做法其实都是一样,通过一个map来保存数据,实现。
解答
class Solution {
public:
vector<string> findRepeatedDnaSequences(string s) {
vector<string> res;
if(s.empty() || s.size()<10) return res;//自己错误1:没有判断长度小于10的情况
map<string,int> m;
for(decltype(s.size()) i=0;i<s.size()-9;++i)//自己错误2:判断边界出错,一开始写成了s.size()-10,不对。例如输入11个A
{
string temp=s.substr(i,10);
++m[temp];
}
for(auto i:m)
{
if(i.second>1) res.push_back(i.first);
}
return res;
}
};