动态规划:值函数迭代例子

  • 最优方程:
    V ( h ) = min ⁡ { R + α [ P 1 C + V ( 0 ) ] , α [ h P 2 C + ( 1 − h ) γ P 2 C + ( 1 − h ) ( 1 − γ ) P 1 C + V ( h + ( 1 − h ) γ ) ] } V(h)=\min \left\{R+\alpha\left[P_{1} C+V(0)\right]\right., \left.\alpha\left[h P_{2} C+(1-h) \gamma P_{2} C+(1-h)(1-\gamma) P_{1} C+V(h+(1-h) \gamma)\right]\right\} V(h)=min{R+α[P1C+V(0)],α[hP2C+(1h)γP2C+(1h)(1γ)P1C+V(h+(1h)γ)]}
    其中, P 2 > P 1 P_2>P_1 P2>P1

  • 值迭代:
    V n ( h ) = min ⁡ { R + α [ P 1 C + V n − 1 ( 0 ) ] , α [ h P 2 C + ( 1 − h ) γ P 2 C + ( 1 − h ) ( 1 − γ ) P 1 C + V n − 1 ( h + ( 1 − h ) γ ) ] } V_{n}(h)=\min \left\{R+\alpha\left[P_{1} C+V_{n-1}(0)\right]\right., \left.\alpha\left[h P_{2} C+(1-h) \gamma P_{2} C+(1-h)(1-\gamma) P_{1} C+V_{n-1}(h+(1-h) \gamma)\right]\right\} Vn(h)=min{R+α[P1C+Vn1(0)],α[hP2C+(1h)γP2C+(1h)(1γ)P1C+Vn1(h+(1h)γ)]}
    其中, V 0 ( h ) ≡ 0 V_0(h)\equiv0 V0(h)0

  • 离散化:
    因为 h ∈ [ 0 , 1 ] h\in[0,1] h[0,1],所以我们要对 h h h进行离散化。设 h ∈ H = { 0.01 k ∣ 0 ≤ k ≤ 100 , k ∈ N } h\in H=\{0.01k|0\le k \le100, k\in N\} hH={0.01k0k100,kN}
    又因为 h + ( 1 − h ) γ h+(1-h)\gamma h+(1h)γ可能不属于 H H H,所以我们要将其近似为 H H H中最近的元素: round ( 100 ( h + ( 1 − h ) γ ) ) / 100 \text{round}(100(h+(1-h)\gamma))/100 round(100(h+(1h)γ))/100

  • MATLAB实现:

R = 100;
a = 0.9;
P1 = 0.1;
P2 = 0.5;
C = 20;
gamma = 0.5;

V = zeros(101, 100); % V(i,j)表示第j次迭代中第i个状态所对应的值函数的值
for j = 2:100
    for i = 1:101
        h = (i - 1) / 100;
        V(i, j) = min(R + a * (P1 * C + V(1, j-1)), ...
           a * (h * P2 * C + (1 - h ) * gamma * P2 * C ...
           + (1 - h) * (1 - gamma) * P1 * C)...
           + V(round((h + (1 - h) * gamma) * 100) + 1, j - 1));
    end
end

p = 0:0.01:1;
plot(p, V(:,100))
  • 实验结果:
    在这里插入图片描述
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值