原题
从一个长字符串中查找包含给定字符集合的最短子串。例如,长串为“aaaaaaaaaacbebbbbbdddddddcccccc”,字符集为 {abcd},那么最短子串是“acbebbbbbd”。如果将条件改为“包含且只包含给定字符集合”,你的算法和实现又将如何改动。
分析
本期的题目与上期的题目颇类似。上期我们在分析完之后,提到还可以利用hashmap来实现。这样可以进一步的减小时间复杂度。具体的思路与上期的方法也类似,只是在判断是否出现的时候,不是采用排序的方法,而是hashmap的方法。具体方法如下:
1.
遍历一边字符集合,将集合中的字符都加到hashmap中
2.
然后遍历长串,记录遍历开始pBegin和结束pEnd的位置,直到hashmap中的字符都出现过,则不断移动pBegin,查看是否能够满足 所有字符集和中的字符都出现了,如果出现:则不断更新最小长度;如果没有出现,则停止移动pBegin,开始移动pEnd。依次类推,像一个可以伸缩的窗 口在长串上遍历。
示例代码如下:
这个代码是《编程之美》中求解最短摘要的代码,其实本题,也是最短摘要的一个变化,字符集和就相当于查询了。
这里有一个小小的技巧,在移动pBegin的时候,怎么判断是否字符集合中的字符都出现了呢?可以采用给另外一个hashmap用来记录字符集中字 符出现的次数,当pBegin指向的字符,出现在hashmap中,则其对应出现次数减1,如果次数为0了,则要停止pBegin,开始移动pEnd。
这个方法的时间复杂度为O(2*n + m),空间复杂度为O(n)。
【分析完毕】
// test.cpp : 定义控制台应用程序的入口点。
//
#include "stdafx.h"
#include <iostream>
using namespace std;
#include <string>
bool isAllExisted(char src[],int start,int end ,char des[],int deslen)
{
for(int j=0;j < deslen;++j)
{
bool isFind = false;
for(int i = start;i < end;i++)
{
if(*(src+i)==*(des+j))
isFind = true;
}
if(isFind == false)
{
return false;
}
}
return true;
}
void minAbstractGenerate(char src[],int srclen,char des[],int deslen)
{
int min = 0;
int max = 0;
int begin = 0;
int end = 0;
int distance = srclen;
while(true)
{
while(!isAllExisted(src,min,max,des,deslen)&&min<=max)
{
max++;
}
while(isAllExisted(src,min,max,des,deslen))
{
if(max-min<distance)
{
distance = max -min;
begin = min;
end = max-1;
}
min++;
}
if(max>srclen-1)
{
break;
}
}
while(begin <= end)
{
cout<<*(src+begin);
begin++;
}
}
int _tmain(int argc, _TCHAR* argv[])
{
char src[]="aaaacbebbbbbdddddddcccccc";
char dec[]="abcd";
minAbstractGenerate(src,sizeof(src)/sizeof(char)-1,dec,sizeof(dec)/sizeof(char)-1);
return 0;
}
题目及解释from @陈利人 微博