2005年百度之星预赛第二题

   第二题(共四题 100 分):重叠区间大小( 20 分)

   题目描述:请编写程序,找出下面输入数据及格式中所描述的输入数据文件中最大重叠区间的大小。

对一个正整数 n ,如果 n 在数据文件中某行的两个正整数(假设为 A B )之间,即 A<=n<=B A>=n>=B ,则 n 属于该行;如果 n 同时属于行 i j ,则 i j 有重叠区间;重叠区间的大小是同时属于行 i j 的整数个数。
例如,行( 10 20 )和( 12 25 )的重叠区间为 [12 20] ,其大小为 9 ;行( 20 10 )和( 12 18 )的重叠区间为 [12 18] ,其大小为7;行 (20 10) 和( 20 30 )的重叠区间大小为 1

    输入数据:程序读入已被命名为 input.txt 的输入数据文本文件,该文件的行数在 1 1,000,000 之间,每行有用一个空格分隔的 2 个正整数,这 2 个正整数的大小次序随机,每个数都在 1 2^32-1 之间。(为便于调试,您可下载测试 input.txt 文件,实际运行时我们会使用不同内容的输入文件。)

    输出数据:在标准输出上打印出输入数据文件中最大重叠区间的大小,如果所有行都没有重叠区间,则输出 0

    评分标准:程序输出结果必须正确,内存使用必须不超过 256MB ,程序的执行时间越快越好。

    普通解法:读入数据时,(A,B),比较一下,使得A<B,然后双重for循环,确定两两之间的重叠区间,从而求得最大的重叠区间。时间复杂度O(n^2)

    代码如下:

    对于100000量的数据的消耗时间为Time:79344(CPU:Intel Core 2,2.83GHZ,4核)。

    排序解法: 读入数据时,(A,B),比较一下,使得A<B,然后对A进行排序,那么对于任意一个区域只要比较area[i].y > area[j].x的两两区间的长度,而且代码中有两个剪枝,尤其是第一个剪枝非常重要,对于速度有质的飞跃。

    剪枝1:我们上一次考虑的lasty,对于区间(A,B),如果B<lasty,表明这个区间被上一个区间给覆盖过了, 那么不用考虑这个区间。如(1, 20), (2, 4), (3, 30)。那么不用考虑区间(2,4)。因为区间(2,4)被(1,20)给覆盖了。所以对于(2,4)的最大重叠区间就是本身。

    剪枝2:对于任意一个区间的(A,B),A<=B.的最大重叠区间为B-A+1。所以如果result > B-A,那么就可以不考虑这个区间了。

    这个算法的主要时间用于排序,快排的时间复杂度为O(nlogn)。重叠区间计算的时间为O(kn)。有了两个剪枝以后,k几乎可以忽略不计。

    代码如下:

 

    对于100000数据量的时间为859(主要用于读取数据和快排,时间耗时859).对于1000000数据量的时间为:8843,快排时间为8781。

    Hash解法:将1000000数据量的数据进行HASH映射,划分为100等分的数据(简单点理解,将0~2^32的数据进行100等分,然后将区间(A,B)按照A的位置映射到各个等分空间),如果HASH映射的好的话,那么每个数据量在10000左右,对小数据量的数据进行重叠区间的计算。需要注意的是,

    一个区间(A,B)可能跨越多个区间,比如对于区间(1,9),等分空间是(1,5),(6,10),(11,15)情况,那么(1,9)在HASH空间(1,5)内所有数据量的比较为(1,9)和空间内所有数据量的比较。对于(1,9)和在HASH空间(6,10)所有数据量的比较,可以变化为(6,9)和空间内所有数据量的比较。

     由于每个空间的数据量为原来的1/100,那么排序的复杂度o((n/100)log(n/100))*100= o(nlog(n/100)),所以理论上数据量越大,速度会越明显。代码如下:

 

   运行结果却没有那么明显,100000数据量的运行时间为:859,HASH映射和读取数据耗时797。对于1000000数据量的时间为:8593,HASH映射和读数据耗时为7937。只比快排快了100多毫秒,让我很难接受。可能有两方面的原因,第一HASH映射没有均匀映射,也就是没有均匀的100等分,其次,数据量还不够大。我觉得数据量如果继续增大的话,应该还会变得更快。

    另外附上这道题目数据的生成文件。修改里面的number参数可以生成任意量的数据量。第一行为数据量,接下来N行代表区间。

    代码如下:

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值