大数据
文章平均质量分 78
zcliatb
这个作者很懒,什么都没留下…
展开
-
大数据-多路归并-败者树-文件流
#include #include #include #include using namespace std;char *mypath = "d:/test/out.dat";const int k = 128;const int MAXKEY = 1000000000;fstream lastread[128];// 生成一个100000个不同数据的文档,大小为1-1000原创 2014-11-06 18:47:01 · 1008 阅读 · 0 评论 -
大数据-25亿个数找出不重复的整数-双层桶-代码
// 25亿个整数中找出不重复的整数的个数,内存空间不足以容纳这25亿个整数// 先将25亿个数划分为多个桶,后用bitmap进行判断 00 表示未出现, 01表示出现一次,11表示出现多次。// 假设输入数据在d:/test/in.dat// 本程序分成2^8个桶,分别是0~2^23-1,2^23~2^24-1,……// 对于每个桶约等于10^7个整数,对应内存大小为约40MB,原创 2014-11-09 11:07:24 · 1323 阅读 · 0 评论 -
大数据-2.5亿个数据-统计不重复
2.5亿个数据,统计不重复的数据原创 2014-11-07 01:18:06 · 827 阅读 · 0 评论 -
大数据-1000W 条query,大概有300W不重复,计算出前十热度索引
/* 搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来,每个查询串的长度为1-255字节。 假设目前一个日志文件中有一千万个记录(这些查询串的重复度比较高,虽然总数是1千万,但如果除去 重复后,不超过3百万个。一个查询串的重复度越高,说明查询它的用户越多,也就是越热门),请你统计 最热门的10个查询串,要求使用的内存不能超过1G。 edit b原创 2014-11-03 00:15:12 · 610 阅读 · 0 评论