算法
文章平均质量分 81
cyzaizai
这个作者很懒,什么都没留下…
展开
-
百度实习生招聘的一道大数据处理题目(上)
题目为:两个200G大小的文件A和B,AB文件里内容均为无序的一行一个正整数字(不超过2^63),请设计方案,输出两个文件中均出现过的数字,使用一台内存不超过16G、磁盘充足的机器。方案中指明使用java编程时使用到的关键工具类,以及为什么? 对于这种大数据量问题(至少对于一台机器来说算是大数据了),使用MapReduce是最简单的方式了。现在开源的最好的支持MapReduce的分布式计算框架软转载 2013-04-06 09:48:14 · 1067 阅读 · 0 评论 -
百度实习生招聘的一道大数据处理题目(下)
图4为排序阶段CPU的使用率,可以看到只有一个核达到了100%的利用率。下面为一个多线程(线程的数量为核的数量)的排序版本,每个线程只对1G数据中的一部分进行快速排序,排序完成后再由另外一个线程进行归并,将结果写入文件。 多线程排序代码如下: /*multi_thread_sort.c*/ /* * Author: Chaos Lee * Date: 2012-06-30 * Desc转载 2013-04-06 09:50:15 · 620 阅读 · 0 评论