10亿个数字,取最小的100个数

1.最大堆:

先取出前100个数,维护一个100个数的最大堆,遍历一遍剩余的元素,在此过程中维护这个最大堆就可以了。

具体步骤如下:

step1:取前m个元素(例如m=100),建立一个大根堆。保持一个大根堆得性质的步骤,运行时间为O(logm);建立一个大根堆运行时间为mO(logm)=O(m logm);

step2:顺序读取后续元素,直到结束。每次读取一个元素,如果该元素比堆顶元素大,直接丢弃;如果小于堆顶元素,则用该元素替换堆顶元素,然后保持最大堆性质。最坏情况是每次都需要替换掉堆顶的最大元素,因此需要维护堆的代价为(N-m)O(lgm); 最后这个堆中的元素就是前最小的100个。时间复杂度为O(N lgm)。

时间复杂度为O(10亿*lg100)。

首先构造大根堆:

堆的定义:n个关键字序列array[0,...,n-1],当且仅当满足下列要求:

(0 <= i <= (n-1)/2)

① array[i] <= array[2*i + 1] 且 array[i] <= array[2*i + 2]; 称为小根堆;

② array[i] >= array[2*i + 1] 且 array[i] >= array[2*i + 2]; 称为大根堆;

n个节点的完全二叉树array[0,...,n-1],最后一个节点n-1是第(n-1-1)/2个节点的孩子。对第(n-1-1)/2个节点为根的子树调整,使该子树称为堆。

对于大根堆,调整方法为:若【根节点的关键字】小于【左右子女中关键字较大者】,则交换。

//构建大根堆:将array看成完全二叉树的顺序存储结构
private int[] buildMaxHeap(int[] array) {
    //从最后一个节点array.length-1的父节点(array.length-1-1)/2开始,
    //直到根节点0,反复调整堆
    for (int i = (array.length - 2) / 2; i >= 0; i--) {
        adjustDownToUp(array, i, array.length);
    }
    return array;
}
//将元素array[k]自下往上逐步调整树形结构
private void adjustDownToUp(int[] array, int k, int length) {
    int temp = array[k];
    for (int i = 2 * k + 1; i < length - 1; i = 2 * i + 1) {    
    //i为初始化为节点k的左孩子,沿节点较大的子节点向下调整
        if (i < length && array[i] < array[i + 1]) {  
        //取节点较大的子节点的下标
            i++;   //如果节点的右孩子>左孩子,则取右孩子节点的下标
        }
        if (temp >= array[i]) {  //根节点 >=左右子女中关键字较大者,调整结束
            break;
        } else {   //根节点 <左右子女中关键字较大者
            array[k] = array[i]; //将左右子结点中较大值array[i]调整到双亲节点上
            k = i; //【关键】修改k值,以便继续向下调整
        }
    }
    array[k] = temp;  //被调整的结点的值放人最终位置
}

 

堆排序(大根堆):

①将存放在array[0,...,n-1]中的n个元素建成初始堆;

②将堆顶元素与堆底元素进行交换,则序列的最大值即已放到正确的位置;

③但此时堆被破坏,将堆顶元素向下调整使其继续保持大根堆的性质,再重复第②③步,直到堆中仅剩下一个元素为止。

堆排序算法的性能分析:

空间复杂度:o(1);

时间复杂度:建堆:o(n),每次调整o(log n),故最好、最坏、平均情况下:o(n*logn);

稳定性:不稳定

//堆排序
public int[] heapSort(int[] array) {
    array = buildMaxHeap(array); //初始建堆,array[0]为第一趟值最大的元素
    for (int i = array.length - 1; i > 1; i--) {
        int temp = array[0];  //将堆顶元素和堆底元素交换,即得到当前最大元素正确的排序位置
        array[0] = array[i];
        array[i] = temp;
        adjustDownToUp(array, 0, i);  //整理,将剩余的元素整理成堆
    }
    return array;
}

本题中:构造完堆之后将新的元素与大根堆的堆顶元素比较,如果新元素比堆顶元素大,直接舍弃,如果小就跟堆顶元素交换,然后调整大根堆。

public int[] findMin(int[] array,int[] all){
    array = buildMaxHeap(array);
    //前面100个数字(0-99号)已经取出了
    for(int i = 100;i <  all.length - 1; i++){
        if(all[i] >= array[0]){
            continue;
        } else {
            array[0] = all[i];
            adjustDownToUp(array,0,array.length);
        }    
    }
    return array;
}

 

2.快排划分的思想:

每次分割之后只考虑比轴小的一部分,直到比轴小的一部分数量在100多个的时候,采用传统排序算法排序,取前100个。

step1:递归对所有数据分成[a,b),(b,d]两个区间,[a,b)区间内的数都是小于(b,d]区间内的数。

step2:对[a,b)重复 step1操作,直到最左边的区间个数小于100个。注意(b,d]区间不用划分

step3:返回上一个区间,并返回此区间的数字数目。接着方法仍然是对上一区间的左边进行划分,分为[a2,b2),(b2,d2]两个区间,取(a2,b2]区间。如果个数不够,继续 step3操作,如果个数超过100的就重复 step1操作,直到最后右边只有100个数为止。

复杂度为O(10亿*100)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值