外部排序就是数据存储在外部磁盘中,数据量比较大,内存有限,无法将数据全部加载到内存中。
排序动图演示
桶排序
- 有序的桶
- 数据在各个桶之间的分布是比较均匀的(不然复杂度就退化为 O(nlogn))
- 每个桶里的数据再单独进行排序(一般为快速排序)
- 然后再将数据按照桶的顺序依次拼到一起,就是排序好的数据。
- 时间复杂度是 O(n)(桶的个数 m 要接近数据个数 n,至少在同一个数量级上)
- 适合外部排序,大数据量。
计数排序(Counting sort)
计数排序其实是桶排序的一种特殊情况:适合虽然数据量大,但是数据范围小(也就是重复的数据比较多)
例如:50万考生的成绩排名,数据量50万,但数据范围0~900。
- 就是一种特殊的桶排序
- 一个数据一个桶(每个桶内的数据值都是相同的,省掉了桶内排序的时间)
- 因为只涉及扫描遍历操作,所以时间复杂度是 O(n+k)【k是数据范围】。
所以,一般用一个一维数组代表所有的桶:桶的下标就是就是桶中数据的值,数组中的值是该桶中的数据个数以及该桶之前桶中数据个数的累加和。
八位童鞋A[8]:1号童鞋考了3分,2号考了0分,3号考了3分…
为了排序的稳定,从一号同学的3分开始从桶里面拿数据放入排序结果数组R[8]中:
// 计数排序,a是数组,n是数组大小。假设数组中存储的都是非负整数。
public void countingSort(int[] a, int n) {
if (n <= 1) return;
// 查找数组中数据的范围
int max = a[0];
for (int i = 1; i < n; ++i) {
if (max < a[i]) {
max = a[i];
}
}
int[] c = new int[max + 1]; // 申请一个计数数组c,下标大小[0,max]
for (int i = 0; i <= max; ++i) {
c[i] = 0;
}
// 计算每个元素的个数,放入c中
for (int i = 0; i < n; ++i) {
c[a[i]]++;
}
// 依次累加
for (int i = 1; i <= max; ++i) {
c[i] = c[i-1] + c[i];
}
// 临时数组r,存储排序之后的结果
int[] r = new int[n];
// 计算排序的关键步骤,有点难理解
for (int i = n - 1; i >= 0; --i) {
int index = c[a[i]]-1;
r[index] = a[i];
c[a[i]]--;
}
// 将结果拷贝给a数组
for (int i = 0; i < n; ++i) {
a[i] = r[i];
}
}
基数排序(Radix sort)
借助稳定排序算法:
- 先按照最后一位来排序
- 再按照倒数第二位重新排序,以此类推
- 最后按照第一位重新排序
- 位数不等长的前面补0
- 时间复杂度是 O(dn) 【d是维度(位数)】(条件:位数是比较客观的,比如手机号)
- 注意:基数排序并没有降低数据量
思考题:如何根据年龄给 100 万用户排序?
计数排序