2005年百度之星预赛第二题

最新推荐文章于 2016-03-22 15:29:55 发布

无能所以愤怒

最新推荐文章于 2016-03-22 15:29:55 发布

阅读量671

点赞数

分类专栏： USACO算法系列文章标签：百度 input search output 算法测试

本文链接：https://blog.csdn.net/zengniao/article/details/6527621

版权

USACO算法系列专栏收录该内容

58 篇文章 2 订阅

订阅专栏

第二题（共四题 100 分）：重叠区间大小（ 20 分）

题目描述：请编写程序，找出下面 “ 输入数据及格式 ” 中所描述的输入数据文件中最大重叠区间的大小。

对一个正整数 n ，如果 n 在数据文件中某行的两个正整数（假设为 A 和 B ）之间，即 A<=n<=B 或 A>=n>=B ，则 n 属于该行；如果 n 同时属于行 i 和 j ，则 i 和 j 有重叠区间；重叠区间的大小是同时属于行 i 和 j 的整数个数。
例如，行（ 10 20 ）和（ 12 25 ）的重叠区间为 [12 20] ，其大小为 9 ；行（ 20 10 ）和（ 12 18 ）的重叠区间为 [12 18] ，其大小为7；行 (20 10) 和（ 20 30 ）的重叠区间大小为 1 。

输入数据：程序读入已被命名为 input.txt 的输入数据文本文件，该文件的行数在 1 到 1,000,000 之间，每行有用一个空格分隔的 2 个正整数，这 2 个正整数的大小次序随机，每个数都在 1 和 2^32-1 之间。（为便于调试，您可下载测试 input.txt 文件，实际运行时我们会使用不同内容的输入文件。）

输出数据：在标准输出上打印出输入数据文件中最大重叠区间的大小，如果所有行都没有重叠区间，则输出 0 。

评分标准：程序输出结果必须正确，内存使用必须不超过 256MB ，程序的执行时间越快越好。

普通解法：读入数据时，（A,B），比较一下，使得A<B，然后双重for循环，确定两两之间的重叠区间，从而求得最大的重叠区间。时间复杂度O（n^2)

代码如下：

#include <iostream> #include <fstream> #include <Windows.h> #include <list> using namespace std; #define max(a,b) (a)>(b)?(a):(b) #define min(a,b) (a)<(b)?(a):(b) ifstream fin("input100000.txt"); ofstream fout("output100000x1.txt"); const int LARGER = 1000000; unsigned int arr[LARGER][2]; int l; unsigned int result= 0; void read() { fin >> l; unsigned int s, e; for (int i=0; i < l; i ++) { fin >> s >> e; arr[i][0] = min(s,e); arr[i][1] = max(s,e); } } //双重循环遍历求解 void search() { long t_s = GetTickCount(); for(int i = 0; i < l; i ++) { for (int j=i+1; j < l; j ++) { unsigned int s = max(arr[i][0], arr[j][0]); unsigned int e = min(arr[i][1], arr[j][1]); if (s <= e && result < e - s +1) { result = e-s+1; } } } fout << result<<endl; long t_e = GetTickCount(); fout << "Time:" << t_e - t_s << endl; } int main() { read(); search(); return 0; }

对于100000量的数据的消耗时间为Time:79344（CPU：Intel Core 2，2.83GHZ，4核）。

排序解法： 读入数据时，（A,B），比较一下，使得A<B，然后对A进行排序，那么对于任意一个区域只要比较area[i].y > area[j].x的两两区间的长度，而且代码中有两个剪枝，尤其是第一个剪枝非常重要，对于速度有质的飞跃。

剪枝1:我们上一次考虑的lasty，对于区间(A,B)，如果B<lasty，表明这个区间被上一个区间给覆盖过了，那么不用考虑这个区间。如(1, 20), (2, 4), (3, 30)。那么不用考虑区间（2,4）。因为区间（2,4）被（1,20）给覆盖了。所以对于（2,4）的最大重叠区间就是本身。

剪枝2：对于任意一个区间的（A，B），A<=B.的最大重叠区间为B-A+1。所以如果result > B-A，那么就可以不考虑这个区间了。

这个算法的主要时间用于排序，快排的时间复杂度为O（nlogn）。重叠区间计算的时间为O（kn）。有了两个剪枝以后，k几乎可以忽略不计。

代码如下：

#include <iostream> #include <fstream> #include <algorithm> #include <Windows.h> #define max(a,b) (a)>(b)?(a):(b) #define min(a,b) (a)<(b)?(a):(b) using namespace std; struct Area{ unsigned int x; unsigned int y; }; const int LSIZE = 1000000; int n; Area area[LSIZE]; ifstream fin("input100000.txt"); ofstream fout("sort100000x1.txt"); unsigned int result=0; int cmp(const void * a, const void* b) { return ((Area*)a)->x>((Area*)b)->x ? 1 : -1; } void read() { long t_s = GetTickCount(); fin >> n; unsigned int s, e; for (int i=0; i < n; i ++) { fin >> s >> e; area[i].x = min(s,e); area[i].y = max(s,e); } qsort(area, n, sizeof(area[0]), cmp); long t_e = GetTickCount(); fout << "Sort Time: " << t_e - t_s << endl; } void sortsearch() { unsigned int lasty = 0; for (int i=0; i < n; i ++) { //这个剪枝很关键，对于大数据量，速度提升至少10倍 if (area[i].y < lasty) { continue; } lasty = area[i].y; if (area[i].y-area[i].x<result) { continue; } for (int j=i+1; j < n; j ++) { if (area[j].x <= area[i].y) { unsigned int end= min(area[i].y, area[j].y); unsigned int l = end - area[j].x + 1; if (result < l) { result = l; } } else break; } } fout << result << endl; } int main() { long t_s = GetTickCount(); read(); sortsearch(); long t_e = GetTickCount(); fout << "End Time: " << t_e - t_s << endl; return 0; }

对于100000数据量的时间为859（主要用于读取数据和快排，时间耗时859）.对于1000000数据量的时间为：8843，快排时间为8781。

Hash解法：将1000000数据量的数据进行HASH映射，划分为100等分的数据（简单点理解，将0~2^32的数据进行100等分，然后将区间(A,B)按照A的位置映射到各个等分空间），如果HASH映射的好的话，那么每个数据量在10000左右，对小数据量的数据进行重叠区间的计算。需要注意的是，

一个区间(A,B)可能跨越多个区间，比如对于区间（1,9），等分空间是（1,5），（6,10），（11,15）情况，那么（1,9）在HASH空间（1,5）内所有数据量的比较为(1,9)和空间内所有数据量的比较。对于（1,9）和在HASH空间（6,10）所有数据量的比较，可以变化为（6,9）和空间内所有数据量的比较。

由于每个空间的数据量为原来的1/100，那么排序的复杂度o((n/100)log(n/100))*100= o(nlog(n/100))，所以理论上数据量越大，速度会越明显。代码如下：

#include <iostream> #include<fstream> #include <algorithm> #include <Windows.h> #define max(a,b) (a)>(b)?(a):(b) #define min(a,b) (a)<(b)?(a):(b) using namespace std; struct Area{ unsigned int x; unsigned int y; }; unsigned int result=0; const int LSIZE = 1000000; int n; const int N = 100; const unsigned int LARGE = 0XFFFFFFFF; //unsigned int avg; Area area[N][LSIZE]; int al[N]={0}; unsigned int seg[N+1]; unsigned int avg; ifstream fin("input100000.txt"); ofstream fout("hash100000x1.txt"); int cmp(const void * a, const void* b) { return ((Area*)a)->x > ((Area*)b)->x ? 1 : -1; } //二分查找法进行hash映射 int hash(int start) { int s=1; int e=N; int mid; while (s <= e) { mid = (s+e)/2; if (start >= seg[mid]) { s = mid +1; } else if (start < seg[mid-1]) { e = mid -1; } else { return mid; } } return mid; } //读取数据进行hash映射 void read() { long t_s = GetTickCount(); fin >> n; avg = LARGE / N; for(int i=0; i <N; i ++) { seg[i] = avg * i; } seg[100] = LARGE; unsigned int s, e; Area temp; for (int i=0; i < n; i ++) { fin >> s >> e; temp.x = min(s, e); temp.y = max(s,e); //hash散列存储 int h = hash(temp.x); area[h-1][al[h-1]].x = temp.x; area[h-1][al[h-1]].y = temp.y; al[h-1] ++; } long t_e = GetTickCount(); fout << "HASH Time: " << t_e - t_s << endl; } void hashsearch() { //遍历所有的hash散列子文件 for (int i=0; i < N; i ++) { //排序子文件 qsort(area[i], al[i], sizeof(Area), cmp); unsigned int lasty = 0; for (int j=0; j < al[i]; j ++) { if (area[i][j].y < lasty) { continue; } lasty = area[i][j].y; //结束段超过了，建立一个新段供下面的考虑 if (area[i][j].y >= seg[i+1]) { area[i+1][al[i+1]].x = seg[i+1]; area[i+1][al[i+1]].y = area[i][j].y; al[i+1] ++; } for (int k=j+1; k < al[i]; k ++) { if (area[i][k].x <= area[i][j].y) { unsigned int end= min(area[i][k].y, area[i][j].y); unsigned int l = end - area[i][k].x + 1; if (result < l) { result = l; } } else break; }//end for j }//end for i } fout << result << endl; } int main() { long t_s = GetTickCount(); read(); hashsearch(); long t_e = GetTickCount(); fout << "End Time: " << t_e - t_s << endl; return 0; }

运行结果却没有那么明显，100000数据量的运行时间为：859，HASH映射和读取数据耗时797。对于1000000数据量的时间为：8593，HASH映射和读数据耗时为7937。只比快排快了100多毫秒，让我很难接受。可能有两方面的原因，第一HASH映射没有均匀映射，也就是没有均匀的100等分，其次，数据量还不够大。我觉得数据量如果继续增大的话，应该还会变得更快。

另外附上这道题目数据的生成文件。修改里面的number参数可以生成任意量的数据量。第一行为数据量，接下来N行代表区间。

代码如下：

/************************************************************************/ /* 产生随机数文件 */ /*rand()产生的随机数范围是0~RANDMAX（0~0x7fff) */ /************************************************************************/ #include <iostream> #include <fstream> #include <time.h> using namespace std; const unsigned int LARGE = 0xffffffff; const int number = 100000; ofstream fout("input100000.txt"); void generate() { fout << number << endl; for (int i=1; i < number; i ++) { unsigned int a = (rand()<<17)^(rand()<<2)^(rand()%4); unsigned int b = (rand()<<17)^(rand()<<2)^(rand()%4); fout << a <<" "<< b << endl; } } int main() { generate(); return 0; }

无能所以愤怒

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
2005年百度之星预赛第二题

第二题（共四题 100 分）：重叠区间大小（ 20 分）题目描述：请编写程序，找出下面 “ 输入数据及格式 ” 中所描述的输入数据文件中最大重叠区间的大小。对一个正整数 n ，如果 n 在数据文件中某行的两个正整数（假设为 A 和 B ）之间，即 A或 A>=n>=B ，则 n 属于该行；如果 n 同时属于行 i 和 j ，则 i 和 j 有重叠区间；重叠区间的大小是同时属于
复制链接

扫一扫

专栏目录