强化学习的Value-Based方法基于估计状态或状态动作对的值函数(value function)来指导智能体的决策。常见的value-based方法包括Q-learning、Deep Q-Network(DQN)等。
下面是强化学习中Value-Based方法的公式:
1.状态值函数(state value function):
其中,表示在策略
下状态
的价值,
表示从策略
中随机选取动作
,
表示时间步
时获得的奖励,
表示折扣因子,表示未来奖励的价值随时间的降低速率。
2.状态-动作值函数(state-action value function):
其中, 表示在策略
下状态
采取动作
的价值。
3.Q-learning算法:
其中,表示当前状态
采取动作
的状态-动作值函数估计,
是学习率,
是在状态
采取动作
后获得的奖励,
是折扣因子,
表示在状态
采取所有动作
中得到的最大的状态-动作值函数估计。这个公式表示用当前估计的值函数对未来奖励的预测来更新当前的估计。