大数据-25亿个数找出不重复的整数-双层桶-代码

本文介绍了如何运用双层桶的数据结构,在大数据背景下处理25亿个整数,有效地找出不重复的整数。通过链接到的CSDN博客文章,详细阐述了具体的实现细节和C++代码实现。
摘要由CSDN通过智能技术生成

原理见:http://blog.csdn.net/quitepig/article/details/7869830 


// 25亿个整数中找出不重复的整数的个数,内存空间不足以容纳这25亿个整数
// 先将25亿个数划分为多个桶,后用bitmap进行判断 00 表示未出现, 01表示出现一次,11表示出现多次。
// 假设输入数据在d:/test/in.dat
// 本程序分成2^8个桶,分别是0~2^23-1,2^23~2^24-1,……
// 对于每个桶约等于10^7个整数,对应内存大小为约40MB,如果将其用bitmap存储内存可继续降低近到10MB


#include <iostream>
#include <fstream>
#include <conio.h>
#include <time.h>
using namespace std;


char *mypath = "d:/test/in.dat";
char *respath = "d:/test/res.dat";


char mark[3000001];// 近10M数据存储
void generatedata()
{
fstream oo(mypath,ios::in|ios::binary|ios::app);
srand(unsigned(time(NULL)));
for(int i=0;i<1000000;++i)
{
double dat = (double)rand()/RAND_MAX;
int x = (int)(dat*100000000);
oo.write((char*)&
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值