海量数据去重，10亿取前100

8818766

已于 2022-02-25 22:49:35 修改

阅读量466

点赞数

文章标签：其他

于 2021-08-18 22:14:19 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44754004/article/details/119790273

版权

未分类专栏收录该内容

5 篇文章 0 订阅

订阅专栏

在20亿个随机整数中找出某个数m是否存在其中，并假设32位操作系统，4G内存

BitMap：可用于大量数据的快速排序、查找、去重
优点：占用内存少，运算效率高
缺点：所有的数据不能重复，只有当数据比较密集时才有优势
https://www.cnblogs.com/cjsblog/p/11613708.html

在两个各存放有50亿个URL的文件A和文件B中找到共同的URL，每个URL大小为64字节，内存限制为4GB

第一步：用有限的4GB的空间遍历文件A（一次就只读不到4个G的URL就可以做到），对每个url求取hash，并且模1000，然后根据所取得的值将url分别存储到1000个小文件，把小文件记为A0,A1,…,A999，这样每个小文件约300M;
第二步：用同样的处理方法对文件B进行处理，把小文件记为B0,B1,…,B999，这样每个小文件约300M；这样处理后，所有可能相同的url都被保存在对应的小文件，A0和B0，A1和B1 …… A999和B999中，不对应的小文件不可能有相同的url。然后我们只要求出这个1000对儿小文件中相同的url即可。Tips：这每一对儿小文件的大小加起来也就600M，完全可以放进内存里。
第三步：求每对小文件中有相同的url时，就可以把Ai的URL放在内存里的HashSet里，然后再遍历Bi文件中的每个URL，看是否在刚才的HashSet里，如果是的话，那么就是共同的URL，存到文件里就ok了。

10亿取前100

先把10亿个数分成100份，每份1000w个数，然后在1000w个数中分别找出最大的100个数，最后在100*100个数中找出最大的100个。这里我想可以用分布式的处理，多台主机才会更快

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
海量数据去重，10亿取前100

链接: linkhttps://www.cnblogs.com/cjsblog/p/11613708.html
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。