最坏情况为线性时间的选择算法
- 参考:【算法】算法导论:https://www.bilibili.com/video/BV1Tb411M7FA?p=6
提出问题:从一个数组中找到第K个最大数字,即TOPK问题,这个题目在面试和研究中经常遇到,那么,这个题目应该怎么解决呢?
- 理所当然的我们会想到排序,我们可以使用排序算法将数组变得有顺序,然后直接选取,使用快速排序,归并排序,或者是堆排序,都可以使得时间复杂度是 O(nlgn)
- 建堆,取出前K个数字,当k 接近于 0,或者是数组长度的时间,其时间复杂度几乎是线性的,但是如果当K 趋于中位数的时候,复杂度会变为 nlgn
今天我们要介绍的一种算法,使得选取TOPK的时间复杂度是O(n),即最坏情况为线性时间的选择算法(算法导论,YYDS)。
1:详解算法
- 将数组划分为若干个数组,每个子数组中包含5个元素。由于数组的长度不一定是5的整数倍,所以允许最后一个数组的长度 小于5
- 找到每个子数组的中位数,放在每个子数组的二号位置上,即所有的中位数排列成一条直线
- 将获得的中位数递归的调用select,找到中位数的中位数,即一条直线上的中位数
- 将原来的数组使用类似快拍的方法,分成两个部分。让K比划分的低区的元素的数目多一个,因此X 是第K小的元素,并且有 n - k 个元素在划分的高区。
- 如果 i = k,则说明我们找到了
- 如果 i < k,则在低区递归的调用来找到第 i 小的元素。
- 如果 i > k,则在高区递归的调用查找第 i - k小的元素(k个最小的我们已经去掉了,故在后面的数组中查找第 i - k 小的元素)
2:代码实现
#include <stdlib.h>
#include <stdio.h>
#define swap(a,b) (a)^=(b);(b)^=(a);(a)^=(b)
#define MAX 1000
void sort(int* input, int size){
printf ( "sort arry size = %d\n", size );
int i,j;
for(i = 0; i< size ; i++){
for(j = 0; j<size-i-1;j++){
if(input[j]<input[j+1]){
swap(input[j],input[j+1]);
}
}
}
}
void output(int * input, int size){
for(;size>0 && *input;size--,input++){
printf("%d ", *input);
}
printf("\n");
}
int partion(int *input, int size, int key){
printf ( "--------------Step4---------------\n" );
printf("key = %d \n", input[key]);
int *head, *tail;
head = input;
tail = head + size - 1;
swap(*head, input[key]);
int *k = head;
while(head<tail){
while(*tail && *k >= *tail){
tail--;
}
if(tail<=head) break;
swap(*k,*tail);
k = tail;
while(*head && *k < *head)
head++;
if(head>=tail) break;
swap(*k,*head);
k = head;
}
output(input, size);
printf ( "--------------Step4 done--------------\n" );
return k-input+1;
}
int kselect(int *input, int size, int k){
printf ( "start element : %d \n", *input );
if(size<=5){
sort(input, size);
return input[k-1];
}
int mid[MAX] = {0};
int midvalue[MAX] = {0};
int groups = size/5;
int i;
printf ( "-----------------step 1, 2--------------\n" );
for(i = 0; i<groups;i++){
sort(input+i*5, (i*5+5 > size) ? (size-1):5);
printf ( "sorted group %d:\n", i );
output(input+i*5, 5);
mid[i] = i*5 + 2;
midvalue[i] = input[i*5 + 2];
}
printf ( "-----------------step 1, 2 done--------------\n" );
printf ( "---------step3-------------\n" );
sort(midvalue, groups);
printf ( "---------step3 done-------\n" );
int m = -1;
for(i = 0; i<5;i++){
if(input[mid[i]] == midvalue[groups/2]){
m = partion(input, size, mid[i]);
}
}
if(m == k){
return input[m-1];
}
if(k<m){
return kselect(input,m,k);
}
else{
return kselect(input+m, size - m, k-m);
}
return 0xffff;
}
int main(){
int input[] = {1,3,2,10,5,11, 12, 8 ,6, 7}; /*输出第7大的元素.*/
int r = kselect(input,sizeof(input)/sizeof(int), 7);
printf("result %d \n", r);
return 0;
}
3:关于作者
- 这个算法是由Blum,Floyd,Pratt,Rivest,Tarjan设计的。我刚开始看到这个,只认识Floyd。我丝毫没有意识到这里面的水有多深
- Floyd,唯一熟悉的一个人。学习过Floyd算法,该算法可以计算出图中任意两个定点的距离,权重可以为负数,效率高于dijkstra算法。1978年Turing
- Blum,在整数分解中,Blum Blum Shub加密算法中的第二个Blum就是他。 1995年Turing
- Pratt,KMP算法中的P就是他!嗯?KMP怎么写来着?
- Rivest,RSA加密算法的发现者。RSA是对称加密还是非对称加密?他由此2002年获得了Turing award
- Tarjan,图论的研究专家,发明了LCA(最近公共祖先),强连通分量算法。并且也发明了斐波拉契堆和splay数据结构。并且他分析了并查集,在1986年获得了Turing
- 几乎全员Turing,每一个人都对计算机科学的发展做出了相当杰出的贡献!其中Tarjan是Floyd 和knuth的学生。Knuth是The Art of Computer Programming的作者,tex的发明者。36岁获得Turing。
4:小思考
- 该算法把数组分成长度为5的小数组,为什么是5呢?
- 3可以吗?
- 7可以吗?