堆处理海量数据----求前k个最小的数--时间复杂度(n * log k)

通过阅读July的书籍,发现里面求前k个最小数有很多方法。但在面对处理海量数据处理的时候,不能 把全部数据都放在电脑内存中。这时用堆来处理,并把数据放在外存中,通过读取文件的方式来读取。感觉该方法十分巧妙,时间复杂度(n*log k)。代码如下:

#include<iostream>
#include<assert.h>
using namespace std;
void MaxHeap(int heap[],int i,int len);

void BuildHeap(int heap[],int len)
{
	if(heap == NULL)
		return;
	int index = len/2;
	for(int i = index;i >= 1; i--)
		MaxHeap(heap,i,len);
}
void MaxHeap(int heap[],int i,int len)
{
	int largeIndex = -1;
	int left = i * 2;
	int right = i *2 + 1;
	if(left<=len && heap[left]>heap[i])
		largeIndex = left;
	else
		largeIndex = i;
	if(right<=len && heap[right]>heap[largeIndex])
		largeIndex = right;
	if(largeIndex != i)
	{
		swap(heap[i],heap[largeIndex]);
		MaxHeap(heap,largeIndex,len);
	}

}

int main()
{
	int k;
	cout<<"求最小的k个数,请输入k的值:";
	cin>>k;
	int *heap = new int [k+1];

	FILE *fp = fopen("data.txt","r");
	assert(fp);
	for(int i = 1;i<=k;i++)
	
	{
		fscanf(fp,"%d",&heap[i]);
	}
	BuildHeap(heap,k);

	int newData;
	while(fscanf(fp,"%d",&newData)!=EOF)
	{
		if(newData<heap[1])
		{
			heap[1]=newData;
			MaxHeap(heap,1,k);
		}
	}
	for(int j=1;j<=k;j++)
		cout<<heap[j]<<" ";
	cout<<endl;
	fclose(fp);
	return 0;
	
}


关于assert函数用法

以下转自http://www.cnblogs.com/ggzss/archive/2011/08/18/2145017.html

assert宏的原型定义在<assert.h>中,其作用是如果它的条件返回错误,则终止程序执行,原型定义:

#include <assert.h>
void assert( int expression );

  assert的作用是现计算表达式 expression ,如果其值为假(即为0),那么它先向stderr打印一条出错信息,然后通过调用 abort 来终止程序运行。请看下面的程序清单badptr.c:

复制代码
#include <stdio.h>
#include <assert.h>
#include <stdlib.h>
int main( void )
{
       FILE *fp;
    
       fp = fopen( "test.txt", "w" );//以可写的方式打开一个文件,如果不存在就创建一个同名文件
       assert( fp );                           //所以这里不会出错
       fclose( fp );
    
       fp = fopen( "noexitfile.txt", "r" );//以只读的方式打开一个文件,如果不存在就打开文件失败
       assert( fp );                           //所以这里出错
       fclose( fp );                           //程序永远都执行不到这里来
       return 0;
}
复制代码

[root@localhost error_process]# gcc badptr.c 
[root@localhost error_process]# ./a.out 
a.out: badptr.c:14: main: Assertion `fp' failed.

  已放弃使用assert()的缺点是,频繁的调用会极大的影响程序的性能,增加额外的开销。在调试结束后,可以通过在包含#include <assert.h>的语句之前插入 #define NDEBUG 来禁用assert调用,示例代码如下:

#include <stdio.h>
#define NDEBUG
#include <assert.h>


用法总结与注意事项:

  1)在函数开始处检验传入参数的合法性如:

复制代码
int resetBufferSize(int nNewSize)
{
  //功能:改变缓冲区大小,
  //参数:nNewSize 缓冲区新长度
  //返回值:缓冲区当前长度 
  //说明:保持原信息内容不变     nNewSize<=0表示清除缓冲区
  assert(nNewSize >= 0);
  assert(nNewSize <= MAX_BUFFER_SIZE);
  ...
}
复制代码

  

  2)每个assert只检验一个条件,因为同时检验多个条件时,如果断言失败,无法直观的判断是哪个条件失败,如:

  不好:

assert(nOffset>=0 && nOffset+nSize<=m_nInfomationSize);

  好:

assert(nOffset >= 0);
assert(nOffset+nSize <= m_nInfomationSize);

  3)不能使用改变环境的语句,因为assert只在DEBUG个生效,如果这么做,会使用程序在真正运行时遇到问题,如:

  错误:

assert(i++ < 100);

  这是因为如果出错,比如在执行之前i=100,那么这条语句就不会执行,那么i++这条命令就没有执行。

  正确:

 assert(i < 100);
 i++;

  4)assert和后面的语句应空一行,以形成逻辑和视觉上的一致感。

  5)有的地方,assert不能代替条件过滤。



还可以使用STL -- nth_element来逐步求前k个最小的值,简单的例子说明如下:

#include<iostream>
#include<algorithm> //必须的
using namespace std;


int main()
{


	int a[]={3,2,6,1,8};
	for(int i=2;i>=0;i--)
	{
		nth_element(a,a+i,a+4);//求前3个最小的数
		cout<<a[i]<<endl;
	}
	return 0;
}





评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值