最坏情况为线性时间的选择算法

最坏情况为线性时间的选择算法

  • 参考:【算法】算法导论:https://www.bilibili.com/video/BV1Tb411M7FA?p=6

提出问题:从一个数组中找到第K个最大数字,即TOPK问题,这个题目在面试和研究中经常遇到,那么,这个题目应该怎么解决呢?

  • 理所当然的我们会想到排序,我们可以使用排序算法将数组变得有顺序,然后直接选取,使用快速排序,归并排序,或者是堆排序,都可以使得时间复杂度是 O(nlgn)
  • 建堆,取出前K个数字,当k 接近于 0,或者是数组长度的时间,其时间复杂度几乎是线性的,但是如果当K 趋于中位数的时候,复杂度会变为 nlgn

今天我们要介绍的一种算法,使得选取TOPK的时间复杂度是O(n),即最坏情况为线性时间的选择算法(算法导论,YYDS)

1:详解算法

  • 将数组划分为若干个数组,每个子数组中包含5个元素。由于数组的长度不一定是5的整数倍,所以允许最后一个数组的长度 小于5
  • 找到每个子数组的中位数,放在每个子数组的二号位置上,即所有的中位数排列成一条直线
  • 将获得的中位数递归的调用select,找到中位数的中位数,即一条直线上的中位数
  • 将原来的数组使用类似快拍的方法,分成两个部分。让K比划分的低区的元素的数目多一个,因此X 是第K小的元素,并且有 n - k 个元素在划分的高区。
  • 如果 i = k,则说明我们找到了
    • 如果 i < k,则在低区递归的调用来找到第 i 小的元素。
    • 如果 i > k,则在高区递归的调用查找第 i - k小的元素(k个最小的我们已经去掉了,故在后面的数组中查找第 i - k 小的元素)

2:代码实现

#include <stdlib.h>
#include <stdio.h>
#define swap(a,b) (a)^=(b);(b)^=(a);(a)^=(b)
#define MAX 1000

void sort(int* input, int size){
    printf ( "sort arry size = %d\n", size );
    int i,j;
    for(i = 0; i< size ; i++){
        for(j = 0; j<size-i-1;j++){
            if(input[j]<input[j+1]){
                swap(input[j],input[j+1]);
            }
        }
    }
}
void output(int * input, int size){
    for(;size>0 && *input;size--,input++){
        printf("%d ", *input);
    }
    printf("\n");

}

int partion(int *input, int size, int key){
    printf ( "--------------Step4---------------\n" );
    printf("key = %d \n", input[key]);
    int *head, *tail;
    head = input;
    tail = head + size - 1;
    swap(*head, input[key]);

    int *k = head;
    while(head<tail){
        while(*tail && *k >= *tail){
            tail--;
        }
        if(tail<=head) break;
        swap(*k,*tail);
        k = tail;
        while(*head && *k < *head)
            head++;
        if(head>=tail) break;
        swap(*k,*head);
        k = head;
    }
    output(input, size);
    printf ( "--------------Step4 done--------------\n" );
    return k-input+1;
}

int kselect(int *input, int size, int k){
    printf ( "start element : %d \n", *input );
    if(size<=5){
        sort(input, size);
        return input[k-1];
    }
    int mid[MAX] = {0};
    int midvalue[MAX] = {0};
    int groups = size/5;
    int i;

    printf ( "-----------------step 1, 2--------------\n" );
    for(i = 0; i<groups;i++){
        sort(input+i*5, (i*5+5 > size) ? (size-1):5);
        printf ( "sorted group %d:\n", i );
        output(input+i*5, 5);
        mid[i] = i*5 + 2;
        midvalue[i] = input[i*5 + 2];
    }

    printf ( "-----------------step 1, 2 done--------------\n" );

    printf ( "---------step3-------------\n" );
    sort(midvalue, groups);
    printf ( "---------step3 done-------\n" );
    int m = -1;
    for(i = 0; i<5;i++){
        if(input[mid[i]] == midvalue[groups/2]){
            m = partion(input, size, mid[i]);
        }
    }
    if(m == k){
        return input[m-1];
    }
    if(k<m){
        return kselect(input,m,k);
    }
    else{
        return kselect(input+m, size - m, k-m);
    }
    return 0xffff;
}

int main(){
    int input[] = {1,3,2,10,5,11, 12, 8 ,6, 7};     /*输出第7大的元素.*/
    int r = kselect(input,sizeof(input)/sizeof(int), 7);
    printf("result %d \n", r);
    return 0;
}

3:关于作者

  • 这个算法是由Blum,Floyd,Pratt,Rivest,Tarjan设计的。我刚开始看到这个,只认识Floyd。我丝毫没有意识到这里面的水有多深
    • Floyd,唯一熟悉的一个人。学习过Floyd算法,该算法可以计算出图中任意两个定点的距离,权重可以为负数,效率高于dijkstra算法。1978年Turing
    • Blum,在整数分解中,Blum Blum Shub加密算法中的第二个Blum就是他。 1995年Turing
    • Pratt,KMP算法中的P就是他!嗯?KMP怎么写来着?
    • Rivest,RSA加密算法的发现者。RSA是对称加密还是非对称加密?他由此2002年获得了Turing award
    • Tarjan,图论的研究专家,发明了LCA(最近公共祖先),强连通分量算法。并且也发明了斐波拉契堆和splay数据结构。并且他分析了并查集,在1986年获得了Turing
  • 几乎全员Turing,每一个人都对计算机科学的发展做出了相当杰出的贡献!其中Tarjan是Floyd 和knuth的学生。Knuth是The Art of Computer Programming的作者,tex的发明者。36岁获得Turing。

4:小思考

  • 该算法把数组分成长度为5的小数组,为什么是5呢?
    • 3可以吗?
    • 7可以吗?
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值