海量数据排序和查找问题

xwphust

于 2011-07-30 20:35:45 发布

阅读量2.8k

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xwphust/article/details/6647224

版权

1.从100亿数据中找出最大的1000个数。

分析：数据多大十几个G,直接读入内存用快排在取值是不行的，而且就算内存够了，本例子中不需要整体排序，只需要最大的1000个数据，所以很多时间都浪费了。

方法1 ，建立一个1000个数据的最小堆，依次比较，小于丢弃，大于，先出堆，后用大于的数入堆即可。i/o时间和维护堆的时间。

方法2, 冒泡，一次读入1亿数据+1000的连续空间，冒泡1000次，在读入下一批数据到前1亿内存里，在冒泡1000次，时间复杂度为1000N+i/o时间。

方法3. 计数排序，对范围min,max的数据一次计数存入一个a[min,max]的数组，取出最后1000个数据即可。复杂度o(n)+i/o时间

2.对100亿数据进行排序

用上述的方法3，计数排序后，依次写回内存。

也可以使用归并排序，逐段读入，排序，合并返回

桶排序，把数据按照某种规则映射到几个区间，依次对几个区间排序并返回。

3.大规模数据查找

采用B+索引数，红黑树，hash开链方式表

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。