海量数据排序

海量数据排序
2011-04-12 19:33

1亿数据找出最大的1w个

1. 分块法

解法:A. 采用分块法,将1亿数据分成100w一块,共100块。

            B. 对每块进行快速排序,分成两堆,如果大堆大于1w个,则对大堆再次进行快速排序,直到小于等于1w停止

             (假设此时大堆有N个),此时对小堆进行排序,取最大的10000-N个,这样就找到了这100w中最大的1w个。

            C. 100块,每块选出最大的1w,再对这100w使用同样的方法,找出最大的1w个

2. Bit-Map

适用范围:可进行数据的快速查找,判重,删除,一般来说数据范围是int的10倍以下

解法:用一个例子来说明吧,这样直观一点。

            假设对7, 6, 3, 5这四个数进行排序,首先初始化一个byte,8位,可表示为0 0 0 0 0 0 0 0

            对于7,将第七位置1,对剩下几个数执行同样操作,则最后该byte变为 0 0 1 0 1 1 1 0

            最后一步,遍历,将置1位的序号逐个输出,即3,5, 6,7

3. 红黑树

解法:用一个红黑树维护这1w个数,然后遍历其他数字,来替换红黑树中最小的数(这是在网上看到的算法,

            我感觉用赢 者树也是可以的)


如果数据中有重复,则对于Bit-Map,找出前1w个数,对这1w个数建立Hash Table,然后再次遍历这一亿个数,同时对Hash Table中的数字 计数,最后根据计数找出前1w个(包含重复)

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值