强化学习原理python篇03——贝尔曼最优公式

WuRobb

已于 2024-01-07 18:20:49 修改

阅读量1.5k

点赞数 20

分类专栏：强化学习文章标签： python 机器学习开发语言

于 2024-01-07 17:40:20 首次发布

本文链接：https://blog.csdn.net/wurobb/article/details/135439109

版权

本文介绍了使用Python实现强化学习中贝尔曼最优公式的方法，通过网格世界案例详细展示了如何求解状态值和行动值，以及利用Contractionmappingtheorem进行迭代优化策略的过程。最终通过迭代100次得到最优策略和状态值。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本章全篇参考赵世钰老师的教材 Mathmatical-Foundation-of-Reinforcement-Learning Optimal State Values and Bellman Optimality Equation章节，请各位结合阅读，本合集只专注于数学概念的代码实现。

例子

在这里插入图片描述
对于网格世界这样一个例子，其贝尔曼公式中的R和P为

R = np.array([-1, 1, 1, 1]).reshape(-1, 1)
P = np.array(
    [
        [0, 1, 0, 0],
        [0, 0, 0, 1],
        [0, 0, 0, 1],
        [0, 0, 0, 1],
    ])

求解状态值

给定 $\gamma=0.9$ ，利用上一节的解析解求解公式得到状态值

closed_form_solution(R, P, 0.9)

array([[ 8.],
       [10.],
       [10.],
       [10.]])

求解行动值

$\begin{align*} q_π(s_1; a_1) =& −1 + γv_π(s_1) = 6.2\\ q_π(s_1; a_2) =& −1 + γv_π(s_2) = 8\\ q_π(s_1; a_3) =& 0 + γv_π(s_3) = 9\\ q_π(s_1; a_4) =& −1 + γv_π(s_1) = 6.2\\ q_π(s_1; a_5) =& 0 + γv_π(s_1) = 7.2 \end{align*}$

最低0.47元/天解锁文章