面试题41:如何得到一个数据流中的中位数?如果从数据流中读出奇数个数值,那么中位数就是所有数值排序之后位于中间的数值。如果从数据流中读出偶数个数值,那么中位数就是所有数值排序之后中间两个数的平均值。我们使用Insert()方法读取数据流,使用GetMedian()方法获取当前读取数据的中位数。
分析思路
用最大堆实现左边的数据容器,因为位于堆顶的就是最大的数据;同理用一个最小堆实现右边的数据容器。往堆中插入一个数据的时间复杂度是O(logn),由于只需要O(1)的时间就可以得到位于堆顶的数据,因此得到中位数的时间复杂度是O(1)。
核心代码如下:
基于STL中的函数push_heap()、pop_heap()及vector实现堆,并通过伪函数less()和greater()来生成最大堆和最小堆。
参考
参考代码:
template<typename T> class DynamicArray{
public:
void Insert(T num){
//插入元素小于左边大顶堆最大值时,先将该值插入到大根堆中并调整,再将大根堆最大值放进小根堆中
if(((max.size() + min.size()) & 1) == 0){ //数据的总数目是偶数时,把新数据num插入最小堆
if(max.size() > 0 && num < max[0]){ //如果num比最大堆中的一些数据要小
max.push_back(num); //先把num插入最大堆
push_heap(max.begin(), max.end(), less<T>()); //更新重建最大堆
num = max[0]; //令num为重建最大堆后堆中最大的元素,即max[0]
pop_heap(max.begin(), max.end(), less<T>()); //pop_heap()是在堆的基础上,弹出最大堆的堆顶元素。
//需要注意的是,pop_heap()并没有删除元素,而是将堆顶元素和数组最后一个元素进行了替换,
//如果要删除这个元素,还需要对数组进行pop_back()操作。
max.pop_back();
}
min.push_back(num); //把num插入到最小堆
push_heap(min.begin(), min.end(), greater<T>()); //更新重建最小堆
}
else{ //数据的总数目是奇数,把新数据num插入最大堆
if(min.size() > 0 && num > min[0]){ //如果num比最小堆中的一些数据要大
min.push_back(num); //先把num插入最小堆
push_heap(min.begin(), min.end(), greater<T>()); //更新重建最小堆
num = min[0]; //令num为重建最小堆后堆中最小的元素,即min[0]
//弹出最小堆的堆顶元素
pop_heap(min.begin(), min.end(), greater<T>());
min.pop_back();
}
max.push_back(num); //把num插入到最大堆
push_heap(max.begin(), max.end(), less<T>()); //更新重建最大堆
}
}
T GetMedian(){ //用来得到容器中所有数据的中位数
int size = max.size() + min.size();
if(size == 0)
throw exception("No numbers are available");
T median = 0;
if((size & 1) == 1) //数据总数目为奇数
median = min[0]; //因为数据的总数目是偶数时是把数据插入到最小堆,即奇数个数据的中位数在最小堆
else
median = (min[0] + max[0]) / 2;
return median;
}
private:
vector<T> min;
vector<T> max;
};
20200308第一次实现
#include<bits/stdc++.h>
using namespace std;
class Solution{
private:
vector<int> max;
vector<int> min;
public:
void Insert(int num){
if(((max.size() + min.size()) & 1) == 0){ //偶数时,放入大根堆
//插入元素大于右边小顶堆最小值时,先将该值插入到小根堆中并调整,再将小根堆最小值放进大根堆中
if( !min.empty() && num > min[0]){ //num > min[0]的前提是min不为空,如果为空,则min[0]的写法出错,此处条件易出错
min.push_back(num); //push_back() 会在序列末尾添加元素
push_heap(min.begin(),min.end(),greater<int>()); //使用 push_heap() 恢复堆的排序
num = min[0];
pop_heap(min.begin(),min.end(),greater<int>()); //pop_heap() 函数将第一个元素移到最后,并保证剩下的元素仍然是一个堆。
min.pop_back(); //然后就可以使用 vector 的成员函数 pop_back() 移除最后一个元素。
}
max.push_back(num);
push_heap(max.begin(),max.end(),less<int>());
}
else{//else不能少,否则出错,无法实现功能
if(((max.size() + min.size()) & 1) == 1){ //奇数时,放入小根堆
//插入元素小于左边大顶堆最大值时,先将该值插入到大根堆中并调整,再将大根堆最大值放进小根堆中
if(num < max[0]){ //很显然,数据流从无到有,为奇数时,大根堆里面一定有值,故此处可不以!max.empty()判断是否为空
max.push_back(num); //push_back() 会在序列末尾添加元素
push_heap(max.begin(),max.end(),less<int>()); //使用 push_heap() 恢复堆的排序
num = max[0];
pop_heap(max.begin(),max.end(),less<int>()); //pop_heap() 函数将第一个元素移到最后,并保证剩下的元素仍然是一个堆。
max.pop_back(); //然后就可以使用 vector 的成员函数 pop_back() 移除最后一个元素。
}
min.push_back(num);
push_heap(min.begin(),min.end(),greater<int>());
}
}
}
double GetMedian(){
int len = min.size() + max.size();
double result = 0 ;
//if (len <= 0)
// return result;
if((len & 1) == 1) //if(len & 1 == 1) 报错
result = static_cast<double>(max[0]);
if((len & 1 )== 0) //if(len & 1 == 0) 报错
result = static_cast<double>(max[0] + min[0])/2;
return result ;
}
};
int main() {
Solution S;
int num;
while (cin>> num)
S.Insert(num);
double res = S.GetMedian();
cout << res << endl;
}