动态规划：值函数迭代例子

最新推荐文章于 2023-05-22 16:17:17 发布

喵呜嘻嘻嘻

最新推荐文章于 2023-05-22 16:17:17 发布

阅读量616

点赞数

分类专栏：动态规划

本文链接：https://blog.csdn.net/z3w97/article/details/116271113

版权

动态规划专栏收录该内容

4 篇文章 3 订阅

订阅专栏

最优方程：
$V(h)=\min \left\{R+\alpha\left[P_{1} C+V(0)\right]\right., \left.\alpha\left[h P_{2} C+(1-h) \gamma P_{2} C+(1-h)(1-\gamma) P_{1} C+V(h+(1-h) \gamma)\right]\right\}$
其中， $P_2>P_1$ 。
值迭代：
$V_{n}(h)=\min \left\{R+\alpha\left[P_{1} C+V_{n-1}(0)\right]\right., \left.\alpha\left[h P_{2} C+(1-h) \gamma P_{2} C+(1-h)(1-\gamma) P_{1} C+V_{n-1}(h+(1-h) \gamma)\right]\right\}$
其中， $V_0(h)\equiv0$ 。
离散化：
因为 $h\in[0,1]$ ，所以我们要对 $h$ 进行离散化。设 $h\in H=\{0.01k|0\le k \le100, k\in N\}$ 。
又因为 $h+(1-h)\gamma$ 可能不属于 $H$ ，所以我们要将其近似为 $H$ 中最近的元素： $\text{round}(100(h+(1-h)\gamma))/100$ 。
MATLAB实现：

R = 100;
a = 0.9;
P1 = 0.1;
P2 = 0.5;
C = 20;
gamma = 0.5;

V = zeros(101, 100); % V(i,j)表示第j次迭代中第i个状态所对应的值函数的值
for j = 2:100
    for i = 1:101
        h = (i - 1) / 100;
        V(i, j) = min(R + a * (P1 * C + V(1, j-1)), ...
           a * (h * P2 * C + (1 - h ) * gamma * P2 * C ...
           + (1 - h) * (1 - gamma) * P1 * C)...
           + V(round((h + (1 - h) * gamma) * 100) + 1, j - 1));
    end
end

p = 0:0.01:1;
plot(p, V(:,100))

实验结果：

喵呜嘻嘻嘻

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
动态规划：值函数迭代例子

最优方程：V(h)=min⁡{R+α[P1C+V(0)],α[hP2C+(1−h)γP2C+(1−h)(1−γ)P1C+V(h+(1−h)γ)]}V(h)=\min \left\{R+\alpha\left[P_{1} C+V(0)\right]\right., \left.\alpha\left[h P_{2} C+(1-h) \gamma P_{2} C+(1-h)(1-\gamma) P_{1} C+V(h+(1-h) \gamma)\right]\right\}V(h)=min{R+α[P..
复制链接

扫一扫