几道有意思的题目

最新推荐文章于 2022-11-05 10:20:50 发布

xyyaiguozhe

最新推荐文章于 2022-11-05 10:20:50 发布

阅读量442

点赞数

分类专栏：算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xyyaiguozhe/article/details/17007209

版权

算法专栏收录该内容

4 篇文章 0 订阅

订阅专栏

一： A、B两个整数集合，设计一个算法求他们的交集，尽可能的高效。

解法一参考：http://blog.csdn.net/thebestdavid/article/details/12056293

第一种方法：对A、B 两个集合分别进行排序，之后再对排完序的集合继续比较操作，相同的即为交集

第二种方法：利用C++的map，先插入A集合，再一一对B集合继续插入若失败则为交集，这种做法在不考虑

集合大小的情况下确实是一种比较简单的方法。(若不直接用数据结构，类似于hash映射)

第三种方法：转自：http://www.cnblogs.com/i2u9/p/intersection.html

思想：位图标示数字

1 遍历集合A，求出最值，效率 1.5n ，计算最大值与最小值的差为LA。对B一样求出最值的差为LB。

2 新建一块空间 M，大小为 min( LA, LB ) / 8 取整 +1 个字节

3 遍历最值差小的集合

设置M的第j个比特为1（从0开始），j 为每个元素与该集合最小值的差。

设置第j个比特为1 的方法：使用 unsigned char 指针p 指向 M，*(p+j/8) |= 1 << j%8

4 遍历另外一个集合

以每个元素与前一个集合最小值的差为 k，若 k 小于 0 或大于 min(LA,LB) 则该元素不属于交集

再查看 M 中第 k 个比特是否为 1，若是则该元素属于交集，否则不是。

转自：http://blog.csdn.net/mingming_bupt/article/details/6340485

二：给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url？

方案1：可以估计每个文件安的大小为5G×64=320G，远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。遍历文件a，对每个url取余，然后根据所取得的值将url分别存储到1000个小文件中(集合A)。这样每个小文件的大约为300M。遍历文件b，采取和a相同的方式将url分别存储到1000各小文件(集合B)。这样处理后，所有可能相同的url都在对应的小文件（A、B ）中，不对应的小文件不可能有相同的url。然后我们只要求出1000对小文件中相同的url即可。求每对小文件中相同的url时，可以把其中一个小文件的url存储到hash_set中。然后遍历另一个小文件的每个url，看其是否在刚才构建的hash_set中，如果是，那么就是共同的url，存到文件里面就可以了。

方案2：如果允许有一定的错误率，可以使用Bloom filter，4G内存大概可以表示340亿bit。将其中一个文件中的url使用Bloom filter映射为这340亿bit，然后挨个读取另外一个文件的url，检查是否与Bloom filter，如果是，那么该url应该是共同的url（注意会有一定的错误率）。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
几道有意思的题目

一： A、B两个整数集合，设计一个算法求他们的交集，尽可能的高效。解法一参考：http://blog.csdn.net/thebestdavid/article/details/12056293第一种方法：对A、B 两个集合分别进行排序，之后再对排完序的集合继续比较操作，相同的即为交集第二种方法：利用C++的map，先插入A集合，再一一对B集合继续插入若失败则为交集，这种做法在不考虑
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。