目录
这个问题与分解之后的子问题,除了数据规模不同,求解思路都是一样
前言
递归作为经典的算法,是一些高阶算法的底层实现思想,我们很有必要去学习和理解递归算法的核心思想。
如何理解递归
递归是一种应用很广泛的算法,很多数据结构和算法的编码实现都要用到递归,比如:DFS深度优先搜索、前中后序二叉树遍历等等。可以说递归是一种基础算法,虽然理解起来不太像是人脑的思维,但我们需要啃下这块骨头。
接下来我们看一个简单的例子:
周末你带着女朋友去电影院看电影,女朋友问你,咱们现在坐在第几排啊?电影院里面太黑了,看不清,没法数,现在你怎么办?
别忘了你是程序员,这个可难不倒你,递归就开始排上用场了。于是你就问前面一排的人他是第几排,你想只要在他的数字上加一,就知道自己在哪一排了。但是,前面的人也看不清啊,所以他也问他前面的人。就这样一排一排往前问,直到问到第一排的人,说我在第一排,然后再这样一排一排再把数字传回来。直到你前面的人告诉你他在哪一排,于是你就知道答案了。
这就是一个非常标准的递归求解问题的分解过程,去的过程叫“递”,回来的过程叫“归”。基本上,所有的递归问题都可以用递推公式来表示。刚刚这个生活中的例子,我们用递推公式将它表示出来就是这样的:
f(n)=f(n-1)+1 其中,f(1)=1
f(n)表示你想知道自己在哪一排,f(n-1) 表示前面一排所在的排数,f(1)=1表示第一排的人知道自己在第一排。具体的递归代码如下:
int f(int n) {
if (n == 1) return 1;
return f(n-1) + 1;
}
递归需要满足三个条件
一个问题的解可以分为几个子问题的解
何为子问题?子问题就是数据规模更小的问题。比如,前面讲的电影院的例子,你要知道,“自己在哪一排”的问题,可以分解为“前一排的人在哪一排”这样一个子问题。
这个问题与分解之后的子问题,除了数据规模不同,求解思路都是一样
比如电影院那个例子,你求解“自己在哪一排”的思路,和前面一排人求解“自己在哪一排”的思路,是一模一样的。
存在递归终止条件。
把问题分解为子问题,把子问题再分解为子子问题,一层一层分解下去,不能存在无限循环,这就需要有终止条件。还是电影院的例子,第一排的人不需要再继续询问任何人,就知道自己在哪一排,也就是 f(1)=1,这就是递归的终止条件。
如何编写递归代码
写递归代码最关键的是:写出递归公式,找到终止条件。剩下的就是将递归公式转化为代码就很简单了。
接下来在看另外一个例子:
假如有n个台阶,每次你可以跨1个台阶或2个台阶,请问走这n个台阶有多少种走法?
按照上面提到的编写递归的三个条件:首先分解问题,在上到n阶台阶前,我们要么已经走到了n-1阶台阶,要么已经走了n-2阶台阶,假设我们将方法F(n)的返回值代表走N阶台阶的走法:
那么我们可以得到递推公式为:
f(n)=f(n-1)+f(n-2)
找到递归公式后,还有一个重要的步骤需要完成,就是需要找到递归的终止条件。
当n=1时,我们只有一种走法:当n=2时,我们有两种走法:
所以终止条件就是:f(1)=1;f(2)=2.这里有个小技巧就是找递推的终止条件是,通常用n=1,n=0这些数值进行套用,会更好理解。
最后我们转化为代码为:
int f(int n) {
if (n == 1) return 1;
if (n == 2) return 2;
return f(n-1) + f(n-2);
}
总结如下:写递归代码的关键就是找到如何将大问题分解为小问题的规律,并且基于此谢出递推公式,然后在推敲终止条件,最后将递推公式和终止条件翻译成代码。
编写递归代码的关键是,只要遇到递归,我们就把它抽象成一个递推公司,不用想一层层的调用关系,不要试图用人脑去分解递归的每个步骤。
递归的问题
递归造成堆栈溢出
在实际的软件开发中,编写递归代码时,我们会遇到很多问题,比如堆栈溢出。而堆栈溢出会造成系统性崩溃,后果会非常严重。为什么递归代码容易造成堆栈溢出呢?我们又该如何预防堆栈溢出呢?
函数调用会使用栈来保存临时变量。每调用一个函数,都会将临时变量封装为栈帧压入内存栈,等函数执行完成返回时,才出栈。系统栈或者虚拟机栈空间一般都不大。如果递归求解的数据规模很大,调用层次很深,一直压入栈,就会有堆栈溢出的风险。
我们可以通过在代码中限制递归调用的最大深度的方式来解决这个问题。递归调用超过一定深度(比如 1000)之后,我们就不继续往下再递归了,直接返回报错。还是电影院那个例子,我们可以改造成下面这样子,就可以避免堆栈溢出了。
// 全局变量,表示递归的深度。
int depth = 0;
int f(int n) {
++depth;
if (depth > 1000) throw exception;
if (n == 1) return 1;
return f(n-1) + 1;
}
递归造成重复计算
为了避免重复计算,我们可以通过一个数据结构(比如散列表)来保存已经求解过的 f(k)。当递归调用到 f(k) 时,先看下是否已经求解过了。如果是,则直接从散列表中取值返回,不需要重复计算,这样就能避免刚讲的问题了。
空间复杂度与时间复杂度
在时间效率上,递归代码里多了很多函数调用,当这些函数调用的数量较大时,就会积聚成一个可观的时间成本。在空间复杂度上,因为递归调用一次就会在内存栈中保存一次现场数据,所以在分析递归代码空间复杂度时,需要额外考虑这部分的开销,比如我们前面讲到的电影院递归代码,空间复杂度并不是 O(1),而是 O(n)。
总结:
递归是一种非常高效、简洁的编码技巧。只要是满足“三个条件”的问题就可以通过递归代码来解决。
不过递归代码也比较难写、难理解。编写递归代码的关键就是不要把自己绕进去,正确姿势是写出递推公式,找出终止条件,然后再翻译成递归代码。
递归代码虽然简洁高效,但是,递归代码也有很多弊端。比如,堆栈溢出、重复计算、函数调用耗时多、空间复杂度高等,所以,在编写递归代码的时候,一定要控制好这些副作用。
问题
如何用三行代码找到最终推荐人?
伪代码如下
long findRootReferrerId(long actorId) {
Long referrerId = select referrer_id from [table] where actor_id = actorId;
if (referrerId == null) return actorId;
return findRootReferrerId(referrerId);
}
这里有两个问题:
第一,如果递归很深,可能会有堆栈溢出的问题。
第二,如果数据库里存在脏数据,我们还需要处理由此产生的无限递归问题。比如 demo 环境下数据库中,测试工程师为了方便测试,会人为地插入一些数据,就会出现脏数据。如果 A 的推荐人是 B,B 的推荐人是 C,C 的推荐人是 A,这样就会发生死循环。
对于递归代码有么有什么好的调试方法?
- 打印日志发现,递归值。
- 结合条件断点进行调试。
参考资料
本章内容来源于对王争大佬的《数据结构与算法之美》的专栏。