4. 线性排序算法
- 线性排序算法包括桶排序、计数排序、基数排序。
- 线性排序算法的时间复杂度为O(n)。
- 此3种排序算法都不涉及元素之间的比较操作,是非基于比较的排序算法。
- 对排序数据的要求很苛刻,重点掌握此3种排序算法的适用场景。
1. 桶排序(Bucket sort)
1. 算法原理:
- 将要排序的数据分到几个有序的桶里,每个桶里的数据再单独进行快速排序。
- 桶内排完序之后,再把每个桶里的数据按照顺序依次取出,组成的序列就是有序的了。
2. 使用条件
- 要排序的数据需要很容易就能划分成m个桶,并且桶与桶之间有着天然的大小顺序。
- 数据在各个桶之间分布是均匀的。
3. 适用场景
- 桶排序比较适合用在外部排序中。
- 外部排序就是数据存储在外部磁盘且数据量大,但内存有限无法将整个数据全部加载到内存中。
4. 应用案例
- 需求描述:
有10GB的订单数据,需按订单金额(假设金额都是正整数)进行排序
但内存有限,仅几百MB - 解决思路:
扫描一遍文件,看订单金额所处数据范围,比如1元-10万元,那么就分100个桶。
第一个桶存储金额1-1000元之内的订单,第二个桶存1001-2000元之内的订单,依次类推。
每个桶对应一个文件,并按照金额范围的大小顺序编号命名(00,01,02,…,99)。
将100个小文件依次放入内存并用快排排序。
所有文件排好序后,只需按照文件编号从小到大依次读取每个小文件并写到大文件中即可。
3)注意点:若单个文件无法全部载入内存,则针对该文件继续按照前面的思路进行处理即可。
2. 计数排序(Counting sort)
1. 算法原理
-
计数其实就是桶排序的一种特殊情况。
-
当要排序的n个数据所处范围并不大时,比如最大值为k,则分成k个桶
-
每个桶内的数据值都是相同的,就省掉了桶内排序的时间。
-
R[M] 代表着 M 个数据的数组,C[K] 代表着桶的个数,用桶的下标具体代替R[M] 的值,用C[K] 的值代表着 R[M]排序后的下标位置。获取当前C[K]下有多少个元素 =
C[K] - C[K - 1]
要求:此时需要0 < K << M
,数据必须是正整数。非正整需转换为正整数.
如:数组R[8] = { 2,5,3,0,2,3,0,3}
排序 最小值0、最大值5,此时就可以弄成C[6]= { 2, 2, 4, 7, 7, 8 }
代表 0有两个,1没有,2有2个,依次类推。其中R[8]排序后 2的下标位置就是 3 跟 4 :R[8] = {0,0,2,2,3,3,3,5}
2. 代码实现
// 计数排序,a是数组,n是数组大小。假设数组中存储的都是非负整数。
public void countingSort(int[] a, int n) {
if (n <= 1) return;
// 查找数组中数据的范围
int max = a[0];
for (int i = 1; i < n; ++i) {
if (max < a[i]) {
max = a[i];
}
}
int[] c = new int[max + 1]; // 申请一个计数数组c,下标大小[0,max]
for (int i = 0; i <= max; ++i) {
c[i] = 0;
}
// 计算每个元素的个数,放入c中
for (int i = 0; i < n; ++i) {
c[a[i]]++;
}
// 依次累加
for (int i = 1; i <= max; ++i) {
c[i] = c[i-1] + c[i];
}
// 临时数组r,存储排序之后的结果
int[] r = new int[n];
// 计算排序的关键步骤,有点难理解
for (int i = n - 1; i >= 0; --i) {
int index = c[a[i]]-1;
r[index] = a[i];
c[a[i]]--;
}
// 将结果拷贝给a数组
for (int i = 0; i < n; ++i) {
a[i] = r[i];
}
}
3. 使用条件
- 只能用在数据范围不大的场景中,若数据范围k比要排序的数据n大很多,就不适合用计数排序;
- 计数排序只能给非负整数排序,其他类型需要在不改变相对大小情况下,转换为非负整数;
- 比如如果考试成绩精确到小数后一位,就需要将所有分数乘以10,转换为整数。
3. 基数排序(Radix sort)
1. 算法原理(以排序10万个手机号为例来说明)
- 比较两个手机号码a,b的大小,如果在前面几位中a已经比b大了,那后面几位就不用看了。
- 借助稳定排序算法的思想,可以先按照最后一位来排序手机号码,然后再按照倒数第二位来重新排序,以此类推,最后按照第一个位重新排序。
- 经过11次排序后,手机号码就变为有序的
- 每次排序有序数据范围较小,可以使用桶排序或计数排序来完成。
2. 使用条件
- 要求数据可以分割独立的“位”来比较;
- 位之间由递进关系,如果a数据的高位比b数据大,那么剩下的地位就不用比较了;
- 每一位的数据范围不能太大,要可以用线性排序,否则基数排序的时间复杂度无法做到O(n)。
4. 补充:
-
如何根据年龄给100万用户数据排序?
-
对D,a,F,B,c,A,z这几个字符串进行排序,要求将其中所有小写字母都排在大写字母前面,但是小写字母内部和大写字母内部不要求有序。比如经过排序后为a,c,z,D,F,B,A,这个如何实现呢?如果字符串中处理大小写,还有数字,将数字放在最前面,又该如何解决呢?
用两个指针a、b:a指针从头开始往后遍历,遇到大写字母就停下,b从后往前遍历,遇到小写字母就停下,交换a、b指针对应的元素;重复如上过程,直到a、b指针相交。
对于小写字母放前面,数字放中间,大写字母放后面,可以先将数据分为小写字母和非小写字母两大类,进行如上交换后再在非小写字母区间内分为数字和大写字母做同样处理