通过阅读July的书籍,发现里面求前k个最小数有很多方法。但在面对处理海量数据处理的时候,不能 把全部数据都放在电脑内存中。这时用堆来处理,并把数据放在外存中,通过读取文件的方式来读取。感觉该方法十分巧妙,时间复杂度(n*log k)。代码如下:
#include<iostream>
#include<assert.h>
using namespace std;
void MaxHeap(int heap[],int i,int len);
void BuildHeap(int heap[],int len)
{
if(heap == NULL)
return;
int index = len/2;
for(int i = index;i >= 1; i--)
MaxHeap(heap,i,len);
}
void MaxHeap(int heap[],int i,int len)
{
int largeIndex = -1;
int left = i * 2;
int right = i *2 + 1;
if(left<=len && heap[left]>heap[i])
largeIndex = left;
else
largeIndex = i;
if(right<=len && heap[right]>heap[largeIndex])
largeIndex = right;
if(largeIndex != i)
{
swap(heap[i],heap[largeIndex]);
MaxHeap(heap,largeIndex,len);
}
}
int main()
{
int k;
cout<<"求最小的k个数,请输入k的值:";
cin>>k;
int *heap = new int [k+1];
FILE *fp = fopen("data.txt","r");
assert(fp);
for(int i = 1;i<=k;i++)
{
fscanf(fp,"%d",&heap[i]);
}
BuildHeap(heap,k);
int newData;
while(fscanf(fp,"%d",&newData)!=EOF)
{
if(newData<heap[1])
{
heap[1]=newData;
MaxHeap(heap,1,k);
}
}
for(int j=1;j<=k;j++)
cout<<heap[j]<<" ";
cout<<endl;
fclose(fp);
return 0;
}
关于assert函数用法
以下转自http://www.cnblogs.com/ggzss/archive/2011/08/18/2145017.html
assert宏的原型定义在<assert.h>中,其作用是如果它的条件返回错误,则终止程序执行,原型定义:
#include <assert.h> void assert( int expression );
assert的作用是现计算表达式 expression ,如果其值为假(即为0),那么它先向stderr打印一条出错信息,然后通过调用 abort 来终止程序运行。请看下面的程序清单badptr.c:
#include <stdio.h> #include <assert.h> #include <stdlib.h> int main( void ) { FILE *fp; fp = fopen( "test.txt", "w" );//以可写的方式打开一个文件,如果不存在就创建一个同名文件 assert( fp ); //所以这里不会出错 fclose( fp ); fp = fopen( "noexitfile.txt", "r" );//以只读的方式打开一个文件,如果不存在就打开文件失败 assert( fp ); //所以这里出错 fclose( fp ); //程序永远都执行不到这里来 return 0; }
[root@localhost error_process]# gcc badptr.c
[root@localhost error_process]# ./a.out
a.out: badptr.c:14: main: Assertion `fp' failed.
已放弃使用assert()的缺点是,频繁的调用会极大的影响程序的性能,增加额外的开销。在调试结束后,可以通过在包含#include <assert.h>的语句之前插入 #define NDEBUG 来禁用assert调用,示例代码如下:
#include <stdio.h> #define NDEBUG #include <assert.h>
用法总结与注意事项:
1)在函数开始处检验传入参数的合法性如:
int resetBufferSize(int nNewSize) { //功能:改变缓冲区大小, //参数:nNewSize 缓冲区新长度 //返回值:缓冲区当前长度 //说明:保持原信息内容不变 nNewSize<=0表示清除缓冲区 assert(nNewSize >= 0); assert(nNewSize <= MAX_BUFFER_SIZE); ... }
2)每个assert只检验一个条件,因为同时检验多个条件时,如果断言失败,无法直观的判断是哪个条件失败,如:
不好:
assert(nOffset>=0 && nOffset+nSize<=m_nInfomationSize);
好:
assert(nOffset >= 0); assert(nOffset+nSize <= m_nInfomationSize);
3)不能使用改变环境的语句,因为assert只在DEBUG个生效,如果这么做,会使用程序在真正运行时遇到问题,如:
错误:
assert(i++ < 100);
这是因为如果出错,比如在执行之前i=100,那么这条语句就不会执行,那么i++这条命令就没有执行。
正确:
assert(i < 100); i++;
4)assert和后面的语句应空一行,以形成逻辑和视觉上的一致感。
5)有的地方,assert不能代替条件过滤。
还可以使用STL -- nth_element来逐步求前k个最小的值,简单的例子说明如下:
#include<iostream>
#include<algorithm> //必须的
using namespace std;
int main()
{
int a[]={3,2,6,1,8};
for(int i=2;i>=0;i--)
{
nth_element(a,a+i,a+4);//求前3个最小的数
cout<<a[i]<<endl;
}
return 0;
}