海量数据
文章平均质量分 77
yingsun
坚持下去~
展开
-
有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16字节,内存限制大小是1M。返回频数最高的100个词.
首先,我们看到这个题目应该做一下计算,大概的计算,因为大家都清楚的知道1G的文件不可能用1M的内存空间处理。所以我们要按照1M的上线来计算,假设每个单词都为16个字节,那么1M的内存可以处理多少个单词呢? 1M = 1024 KB = 1024 * 1024 B 。然后1M / 16B = 2^16个单词,那么1G大概有多少个单词呢? 有2^26个单词,但是实际中远远不止这些,因为我们是按照最大单原创 2012-12-27 15:10:43 · 27157 阅读 · 7 评论 -
给40亿个不重复的unsigned int的整数,没排过序的,然后再给一个数,如何快速判断这个数是否在那40亿个数当中?
速度相当的快,应该是在小于o(n)的时间内就可以解决问题。但是rand()产生的随机数范围有限制,可以想想其他办法产生随机数。可以看到,所用到的内存很小,而且程序反应速度也很快。这种方法是基于要寻找数的本身特性。也可以成为bit magic。这就是比特位的强大魅力所在。首先,判断所要寻找数字x的最高比特位是1还是0,假设为1,这样可以根据40亿个数的最高位是1还是0进行操作,是0的直接舍去,是1的原创 2012-12-27 17:53:40 · 9599 阅读 · 7 评论 -
第一个大数据处理程序
考虑了一下,还是决定把思路写出来吧,题目要求,给定一定量大的单词,比如说1000万个,然后找出最热门的前10,也就是出现频数排名前十的单词。思路如下:先统计出每个单词出现的次数,应用hash统计,这个方法很快。然后建立一个大小为10的小根堆,之后依次从文件中取出单词,并用单词的出现的次数和小根堆的堆顶元素的出现此处进行比较,如果大于堆顶元素出现的次数,则替换,然后调整小根堆。#incl原创 2012-12-26 15:37:23 · 3464 阅读 · 0 评论