海量数据排序和查找问题

1.从100亿数据中找出最大的1000个数。

分析:数据多大十几个G,直接读入内存用快排在取值是不行的,而且就算内存够了,本例子中不需要整体排序,只需要最大的1000个数据,所以很多时间都浪费了。

方法1 ,建立一个1000个数据的最小堆,依次比较,小于丢弃,大于,先出堆,后用大于的数入堆即可。i/o时间和维护堆的时间。

方法2,    冒泡,一次读入1亿数据+1000的连续空间,冒泡1000次,在读入下一批数据到前1亿内存里,在冒泡1000次,时间复杂度为1000N+i/o时间。

方法3.    计数排序,对范围min,max的数据一次计数存入一个a[min,max]的数组,取出最后1000个数据即可。复杂度o(n)+i/o时间



2.对100亿数据进行排序

用上述的方法3,计数排序后,依次写回内存。

也可以使用归并排序,逐段读入,排序,合并返回

桶排序,把数据按照某种规则映射到几个区间,依次对几个区间排序并返回。

3.大规模数据查找

采用B+索引数 ,红黑树,hash开链方式表


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值