动态规划题目——股票问题
参考链接:一个方法团灭6道股票问题:https://leetcode-cn.com/problems/best-time-to-buy-and-sell-stock/solution/yi-ge-fang-fa-tuan-mie-6-dao-gu-piao-wen-ti-by-l-3/
本文只是按照自己的理解把这篇文章疏通、简化一下思路
核心思想:用状态机的技巧来解决( DP table)
具体思路分析:
一、
不用递归思想,而用[状态]进行穷举——具体到每一天,列举出每一天可能出现的所有[状态],以及每个[状态]对应的[选择]。
股票问题 每天都会有三种[选择]:买入、卖出、无操作——buy、shell、rest
这个问题的[状态]有三个:天数,允许交易的最大次数,当前的持有状态(即rest的状态,不妨用1表示持有,0表示没有持有)
然后我们可以用一个三维数组装下这几种状态的全部组合:
dp[i][k][0 or 1]
0<=i<=n-1,1<=k<=K
n为天数,大K为最多交易数
此问题共n*K*2种6状态
for 0<=i<n:
for 1<=k<=K:
for s in {0,1}:
dp[i][k][s]=max(buy,shell,rest)
dp[3][2][1]的含义就是:今天是第三天,我手上持有股票,至今最多进行2次交易。
再比如dp[2][3][0]的含义:今天是第二天,手上没有股票,至今最多进行3次交易。
我们想求的最终答案是:dp[n-1][k][0],即最后一天,最多允许k次交易,最多获得多少利润。
为什么不是 dp[n - 1][K][1]?因为 [1] 代表手上还持有股票,[0] 表示手上的股票已经卖出去了,很显然后者得到的利润一定大于前者。
二、
理解完上面的「状态」的穷举,我们需要 思考每种「状态」有哪些「选择」,应该如何更新「状态」,接下来先写一下状态转移方程:
dp[i][k][0] = max(dp[i-1][k][0], dp[i-1][k][1] + prices[i])
// 等价于max( 选择 rest , 选择 sell )
解释:今天我没有持有股票,有两种可能:
要么是我昨天就没有持有,然后今天选择 rest,所以我今天还是没有持有;
要么是我昨天持有股票,但是今天我 sell 了,所以我今天没有持有股票了。
dp[i][k][1] = max(dp[i-1][k][1], dp[i-1][k-1][0] - prices[i])
// 等价于max( 选择 rest , 选择 buy )
解释:今天我持有着股票,有两种可能:
要么我昨天就持有着股票,然后今天选择 rest,所以我今天还持有着股票;
要么我昨天本没有持有,但今天我选择 buy,所以今天我就持有股票了。
如果 buy——从利润中减去 prices[i]
如果 sell——就要给利润增加 prices[i]。
今天的最大利润就是这两种可能选择中较大的那个。
而且要注意 k 的限制,我们在选择 buy 的时候,把 k 减小了 1,当然你也可以在 sell 的时候减 1,一样的。
这时还差最后一种情况——定义 base case ,最简单的情况:
dp[-1][k][0] = 0
解释:因为 i 是从 0 开始的,所以 i = -1 意味着还没有开始,这时候的利润当然是 0 。
dp[-1][k][1] = -infinity
解释:还没开始的时候,是不可能持有股票的,用负无穷表示这种不可能。
dp[i][0][0] = 0
解释:因为 k 是从 1 开始的,所以 k = 0 意味着根本不允许交易,这时候利润当然是 0 。
dp[i][0][1] = -infinity
解释:不允许交易的情况下,是不可能持有股票的,用负无穷表示这种不可能。
综上所述:把上面的状态转移方程总结一下:
base case:
dp[-1][k][0] = dp[i][0][0] = 0
dp[-1][k][1] = dp[i][0][1] = -infinity
状态转移方程:
dp[i][k][0] = max(dp[i-1][k][0], dp[i-1][k][1] + prices[i])
dp[i][k][1] = max(dp[i-1][k][1], dp[i-1][k-1][0] - prices[i])
这个数组索引是 -1 怎么编程表示出来呢,负无穷怎么表示呢?这都是细节问题,有很多方法实现。现在完整的框架已经完成,接下来就是要根据题目具体化了。