此篇文章都作为笔记记录,如有侵权,联系立删!!!
数据结构: 一组数据的存储结构
算法: 操作数据的一组方法
数据结构是为算法服务的,算法要作用在特定的数据结构上
数组支持随机访问,可以使用二分查找算法
链表不支持随机访问,不可以使用二分查找算法
是什么?为什么?怎么做?
常见的数据结构和算法
数据结构:数组、链表、栈、队列、散列表、二叉树、堆、跳表、图、trie树
算法:递归、排序、二分查找、搜索、哈希算法、贪心算法、分治算法、回溯算法、动态规划、字符串匹配算法
复杂度分析
复杂度分析为我们提供了一个很好的理论分析方向,并且与宿主机无关,让我们在程序的执行效率上有一个感性的认知。
大O复杂度表示法
不需要具体测试数据,可以粗略的估计算法的执行效率的方法。(并不具体代表代码执行的时间,而是表示代码执行时间随数据规模增长的变化趋势,也叫渐进时间复杂度(时间复杂度))
假设每一行代码(读数据-运算-写数据)执行的耗时为 unit_time,n次循环的耗时就为 n*unit_time
public int cal(int n){
int sum = 0;
int i = 1;
int j = 1;
for(;i<=n;++i){
j =1;
for(;j<=n;++j){
sum = sum+ i*j;
}
}
}
//上述代码的执行时间为
T(n) = (2n²+2n+3)*unit_time。//当 n足够大时,可以简写成 T(n) = O(n²)
- 只关注循环执行次数最多的一段代码(当n足够大时,+1,+2 行代码的时间都可以忽略不计)
- 加法法则:总复杂度等于量级最大的那段代码的复杂度
- 乘法法则:嵌套代码的复杂度等于嵌套内外代码复杂度的乘积
当数据规模 n 越来越大时,非多项式量级算法的执行时间会急剧增加,求解问题的执行时
间会无限增长。所以,非多项式时间复杂度的算法其实是非常低效的算法。
时间复杂度案例
public class TestDemo {
/**
* 时间复杂度 O(1):常量级
*/
public void test1(){
int i = 1;
int j = 2;
int sum = i + j ;
}
/**
* 时间复杂度 O(logn)、O(nlogn)
* 2的x次方=n
* x=㏒₂n 当 i= i*3 复杂度为 x=㏒₃n ==》O(logn)
*/
public void test2(int n){
int i= 1;
while (i <= n){
i = i*2;
}
}
/**
* 时间复杂度 O(m+n)、O(m*n)
*/
public int test3(int m, int n) {
int sum_1 = 0;
int i = 1;
for (; i < m; ++i) {
sum_1 = sum_1 + i;
}
int sum_2 = 0;
int j = 1;
for (; j < n; ++j) {
sum_2 = sum_2 + j;
}
return sum_1 + sum_2;
}
}
空间复杂度
算法存储空间和数据规模之间的增长关系
//空间复杂度
public void test4(int n){
int i = 0;
int[] a = new int[n];
for (; i < n; i++) {
a[i] = i*i;
}
}
//除了第三行申请了一个大小为n的数组,其他代码没有占用到什么空间。所以整段代码的空间复杂度为 O(n);
最好情况时间复杂度(best case time complexity)
在最理想的情况下,执行完代码所需要耗费的时间
最坏情况时间复杂度(worst case time complexity)
在最坏的情况下,执行完代码所需要耗费的时间
平均情况时间复杂度(average case time complexity)
//最好,最坏,平均时间复杂度分析
public int test5(int[] array ,int n,int x){
int i = 0;
int pos = -1;
for (; i < n; i++) {
if (array[i]==x){
pos = i;
break;
}
}
return pos;
}
/**
* 要查找的变量 x 在数组中的位置,有 n+1 种情况:在数组的 0~n-1 位置中和不在数组
* 中。我们把每种情况下,查找需要遍历的元素个数累加起来,然后再除以 n+1,就可以得
* 到需要遍历的元素个数的平均值,即:
*/
1 + 2 + 3 + . . + n + n n + 1 = n ( n + 3 ) 2 ( n + 1 ) \frac{1+2+3+..+n+n}{n+1} = \frac{ n(n+3)}{2(n+1)} n+11+2+3+..+n+n=2(n+1)n(n+3)
根据公式省略掉系数、低阶、常量可以得到上述代码的平均情况时间复杂度为 O(n)
这个结论虽然是正确的,但是计算过程稍微有点儿问题。我们刚讲的这
n+1 种情况,出现的概率并不是一样的。
我们知道,要查找的变量 x,要么在数组里,要么就不在数组里。这两种情况对应的概率统
计起来很麻烦,为了方便你理解,我们假设在数组中与不在数组中的概率都为 1/2。另外,
要查找的数据出现在 0~n-1 这 n 个位置的概率也是一样的,为 1/n。所以,根据概率乘法
法则,要查找的数据出现在 0~n-1 中任意位置的概率就是 1/(2n)。
因此,前面的推导过程中存在的最大问题就是,没有将各种情况发生的概率考虑进去。如果
我们把每种情况发生的概率也考虑进去,那平均时间复杂度的计算过程就变成了这样:
1 ∗ 1 2 n + 2 ∗ 1 2 n + 3 ∗ 1 2 n + . . . + n ∗ 1 2 n + n ∗ 1 2 + = 3 n + 1 4 1*\frac{1}{2n}+ 2*\frac{1}{2n}+ 3*\frac{1}{2n}+ ...+ n*\frac{1}{2n}+ n*\frac{1}{2}+ = \frac{ 3n+1}{4} 1∗2n1+2∗2n1+3∗2n1+...+n∗2n1+n∗21+=43n+1
这个值是概率论中的加权平均值,也叫期望值,所以平均时间复杂度的全称是加权平均时间复杂度或者期望时间复杂度。
引入概率之后,前面那段代码的加权平均值为 (3n+1)/4。用大 O 表示法来表示,去掉系数和常量,这段代码的加权平均时间复杂度仍然是 O(n)。
均摊时间复杂度(amortized time complexity)
/**
* 均摊时间复杂度
*/
int[] arr = new int[n];
int count = 0;
void test6(int val){
if (count == arr.length){
int sum = 0;
for (int i = 0; i < arr.length; i++) {
sum = sum + arr[i];
}
arr[0] = sum;
count = 1;
}
arr[count] = val;
++count;
}
/**
* 这段代码实现了一个往数组中插入数据的功能。当数组满了之
* 后,也就是代码中的 count == array.length 时,我们用 for 循环遍历数组求和,并清空
* 数组,将求和之后的 sum 值放到数组的第一个位置,然后再将新的数据插入。但如果数组
* 一开始就有空闲空间,则直接将数据插入数组。
* 那这段代码的时间复杂度是多少呢?你可以先用我们刚讲到的三种时间复杂度的分析方法来分析一下。
* 最理想的情况下,数组中有空闲空间,我们只需要将数据插入到数组下标为 count 的位置
* 就可以了,所以最好情况时间复杂度为 O(1)。最坏的情况下,数组中没有空闲空间了,我
* 们需要先做一次数组的遍历求和,然后再将数据插入,所以最坏情况时间复杂度为 O(n)。
* 那平均时间复杂度是多少呢?答案是 O(1)。我们还是可以通过前面讲的概率论的方法来分
* 析。
* 假设数组的长度是 n,根据数据插入的位置的不同,我们可以分为 n 种情况,每种情况的
* 时间复杂度是 O(1)。除此之外,还有一种“额外”的情况,就是在数组没有空闲空间时插
* 入一个数据,这个时候的时间复杂度是 O(n)。而且,这 n+1 种情况发生的概率一样,都是
* 1/(n+1)。所以,根据加权平均的计算方法,我们求得的平均时间复杂度就是:
*/
1 ∗ 1 n + 1 + 1 ∗ 1 n + 1 + . . . + 1 ∗ 1 n + 1 + n ∗ 1 n + 1 + = 2 n n + 1 = O ( 1 ) 1*\frac{1}{n+1}+ 1*\frac{1}{n+1}+ ...+ 1*\frac{1}{n+1}+ n*\frac{1}{n+1}+ = \frac{ 2n}{n+1}=O(1) 1∗n+11+1∗n+11+...+1∗n+11+n∗n+11+=n+12n=O(1)
/**
* 至此为止,前面的最好、最坏、平均时间复杂度的计算,理解起来应该都没有问题。但是这
* 个例子里的平均复杂度分析其实并不需要这么复杂,不需要引入概率论的知识。这是为什么
* 呢?我们先来对比一下这个 test6() 的例子和前面那个 test5() 的例子,你就会发现这两者
* 有很大差别。
* 首先,test5() 函数在极端情况下,复杂度才为 O(1)。但 test6() 在大部分情况下,时间复
* 杂度都为 O(1)。只有个别情况下,复杂度才比较高,为 O(n)。这是 test6()第一个区别于
* test5() 的地方。
* 我们再来看第二个不同的地方。对于 test6() 函数来说,O(1) 时间复杂度的插入和 O(n) 时
* 间复杂度的插入,出现的频率是非常有规律的,而且有一定的前后时序关系,一般都是一个
* O(n) 插入之后,紧跟着 n-1 个 O(1) 的插入操作,循环往复。
* 所以,针对这样一种特殊场景的复杂度分析,我们并不需要像之前讲平均复杂度分析方法那
* 样,找出所有的输入情况及相应的发生概率,然后再计算加权平均值。
* 针对这种特殊的场景,我们引入了一种更加简单的分析方法:摊还分析法,通过摊还分析得
* 到的时间复杂度我们起了一个名字,叫均摊时间复杂度。
*/
那究竟如何使用摊还分析法来分析算法的均摊时间复杂度呢?
我们还是继续看在数组中插入数据的这个例子。每一次 O(n) 的插入操作,都会跟着 n-1 次
O(1) 的插入操作,所以把耗时多的那次操作均摊到接下来的 n-1 次耗时少的操作上,均摊下来,这一组连续的操作的均摊时间复杂度就是 O(1)。这就是均摊分析的大致思路。
均摊时间复杂度和摊还分析应用场景比较特殊,所以我们并不会经常用到。为了方便你理
解、记忆,我这里简单总结一下它们的应用场景。如果你遇到了,知道是怎么回事儿就行
了。
对一个数据结构进行一组连续操作中,大部分情况下时间复杂度都很低,只有个别情况下时
间复杂度比较高,而且这些操作之间存在前后连贯的时序关系,这个时候,我们就可以将这
一组操作放在一块儿分析,看是否能将较高时间复杂度那次操作的耗时,平摊到其他那些时
间复杂度比较低的操作上。而且,在能够应用均摊时间复杂度分析的场合,一般均摊时间复
杂度就等于最好情况时间复杂度。
尽管很多数据结构和算法书籍都花了很大力气来区分平均时间复杂度和均摊时间复杂度,但
其实我个人认为,均摊时间复杂度就是一种特殊的平均时间复杂度