1.从100亿数据中找出最大的1000个数。
分析:数据多大十几个G,直接读入内存用快排在取值是不行的,而且就算内存够了,本例子中不需要整体排序,只需要最大的1000个数据,所以很多时间都浪费了。
方法1 ,建立一个1000个数据的最小堆,依次比较,小于丢弃,大于,先出堆,后用大于的数入堆即可。i/o时间和维护堆的时间。
方法2, 冒泡,一次读入1亿数据+1000的连续空间,冒泡1000次,在读入下一批数据到前1亿内存里,在冒泡1000次,时间复杂度为1000N+i/o时间。
方法3. 计数排序,对范围min,max的数据一次计数存入一个a[min,max]的数组,取出最后1000个数据即可。复杂度o(n)+i/o时间
2.对100亿数据进行排序
用上述的方法3,计数排序后,依次写回内存。
也可以使用归并排序,逐段读入,排序,合并返回
桶排序,把数据按照某种规则映射到几个区间,依次对几个区间排序并返回。
3.大规模数据查找
采用B+索引数 ,红黑树,hash开链方式表