贝尔曼公式

最新推荐文章于 2024-05-29 13:37:33 发布

Colin_Jing

最新推荐文章于 2024-05-29 13:37:33 发布

阅读量834

点赞数 23

分类专栏：强化学习文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/weixin_52101154/article/details/135627086

版权

强化学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

强化学习的直觉

强化学习的思想借鉴了心理学、神经科学领域，即希望智能体（agent）像人一样，通过不断与外界进行交互，作用于环境，并得到环境的反馈，根据奖励和惩罚来调整自己的策略，不断修炼，希望最终学到的策略得到的奖励能够最大化。

一般来说，一个科研思路都是从直觉开始的，但是怎么把直觉抽象出来，进行精确的数学表达，从而可以量化自己的直觉是很重要的。

经过之前科学家们的不断探索，总结出了一条适用于实现强化学习这个想法的数学框架，即马尔科夫决策过程（MDP）

马尔科夫决策过程（MDP）形式化强化学习的直觉

如何形式化强化学习这种思路的直觉呢？强化学习的目的是让智能体不断与环境进行交互，根据环境的反馈来调整自己的策略，马尔科夫决策过程是这样形式化上面这个过程的：

状态 $S$ , 定义智能体当前所处的环境的状态
动作 $A$ ，定义智能体可能作用于环境的动作
奖励 $R$ ，定义智能体从环境中得到的反馈，如果是惩罚，奖励可以设置为负数
环境模型：状态转移概率 $p (s^{'} ∣ s, a)$ ，智能体在状态 $s$ 下对环境执行动作 $a$ ，环境模型接收到动作 $a$ 后变为状态 $s^{'}$ 的概率。奖励概率 $p (r ∣ s, a)$ ，智能体在状态 $s$ 下对环境执行动作 $a$ ，环境模型接收到动作 $a$ 后返回奖励为 $r$ 的概率。
马尔科夫性：智能体做出的决策只与当前状态有关，而与历史状态无关。 $p(s_{t+1}|a_{t+1},s_t,...,a_0) = p(s_{t+1}|a_{t+1},s_t)$ ，马尔科夫性质可以加大简化问题求解的复杂度，极大地提高了学习的效率和效果。

贝尔曼公式可以衡量策略的好坏（策略评估）

强化学习的目的是求解最优策略，那么衡量最优策略的指标是什么呢？
就是奖励。智能体想要学习到最优的策略以得到最大的奖励。
假设现在智能体已经有了一个策略，从状态 $s_1$ 出发，一直经过状态 $s_2$ , $s_3$ , $...$ , $s_n$ ，每次到达一个状态会获得一个奖励，即获得 $r_1$ , $r_2$ , $...$ , $r_n$ ，我们想要最大化奖励，即 $r_1+r_2+...+r_n$ 要最大，一般我们会引入一个折扣因子 $\gamma$ （0-1之间），最大化奖励的公式变成： $r_1+\gamma r_2+\gamma^2 r_3...+\gamma^{n-1} r_n$ ，引入 $\gamma$ 有两个好处，第一个是这个级数会变得收敛，第二个是它可以平衡即时奖励和未来奖励的比重。
那给定一个策略，从任意状态出发一直执行策略到结束，都会得到这样一个求和的奖励链，那么这个奖励链的值越大，就说明当前状态越有价值，这样一个奖励链叫做return（回报），状态价值的定义就是从该状态出发一直到结束的回报的期望。
定义一个状态的回报为 $G_t$ ,则在这里插入图片描述
定义状态价值 $v_\pi(s)$ ：

写成矩阵-向量的形式：

通过迭代求解即可求得所有的 $v_\pi$

Colin_Jing

关注

23
点赞
踩
19

收藏

觉得还不错? 一键收藏
打赏
0
评论
贝尔曼公式

强化学习的思想借鉴了心理学、神经科学领域，即希望智能体（agent）像人一样，通过不断与外界进行交互，作用于环境，并得到环境的反馈，根据奖励和惩罚来调整自己的策略，不断修炼，希望最终学到的策略得到的奖励能够最大化。一般来说，一个科研思路都是从直觉开始的，但是怎么把直觉抽象出来，进行精确的数学表达，从而可以量化自己的直觉是很重要的。经过之前科学家们的不断探索，总结出了一条适用于实现强化学习这个想法的数学框架，即马尔科夫决策过程（MDP）
复制链接

扫一扫