贝尔曼方程也就是动态规划方程,是表示相邻状态关系的方程。
RL里就主要是价值函数V(s)与V(s’)的关系,还有Q(s)与Q(s’)的关系,还有Q(s)和V(s’)的关系。
V(s)与V(s’)的关系大概如下:
其中从G到V的变化参考:
也可以写成:
也可以写成:
Q(s)和V(s’)的关系
也可以写成:
Q(s)与Q(s’)的关系
参考文献:
eastRL
知乎强化学习笔记 - 贝尔曼方程(Bellman Equation)
CSDN贝尔曼方程(Bellman equation)