Top-K in MapReduce Haddop Framework
top 10的算法:我们只需要维护一个10个大小的数组,初始化放入10Query,按照每个Query的统计次数由大到小排序,然后遍历这300万条记录,每读一条记录list后进行从大到小排序。如果list长度为11,则pop()默认删除最后一个元素。
不难分析出,这样的算法的时间复杂度是N*K, 其中K是指top多少。#!/usr/bin/python
"""
Your mapper functio
原创
2017-09-09 19:54:41 ·
253 阅读 ·
0 评论