【强化学习】Actor-critic演员评论家算法

Actor-critic演员评论家算法

演员评论家算法是一种结合了基于价值和基于策略的算法。

  • Actor:是策略函数。用策略梯度算法来实现。输入的是当前状态,输出的是一个动作。训练目标是最大化累计回报的期望。
  • critic:是价值函数。用时序差分法(TD)算法来实现。对当前策略的值函数进行估计,也就是评价actor的好坏,并指导actor下一步的行为。
    Actor 基于概率选行为, Critic 基于 Actor 的行为评判行为的得分, Actor 根据 Critic 的评分修改选行为的概率。

Actor-critic算法过程

在这里插入图片描述

策略梯度Policy Gradient

策略梯度算法利用reward奖励直接对选择行为的可能性进行增强和减弱,好的行为会被增加下一次被选中的概率,不好的行为会被减弱下次被选中的概率。

策略梯度的主要过程

  • 先初始化一个策略网络θ

  • 用这个策略网络进行N 次游戏,产生N个τ(游戏记录)
    在这里插入图片描述

  • 利用这N 个τ 进行梯度上升,调整策略网络的参数:
    在这里插入图片描述

  • 重复2,3步

Q-leaning算法

QLearning是强化学习算法中value-based的算法,Q即为Q(s,a)就是在某一时刻的 s 状态下(s∈S),采取 动作a (a∈A)动作能够获得收益的期望,环境会根据agent的动作反馈相应的回报reward r,所以算法的主要思想该方法会建立一个Q表,里面存储了每一对( s , a ) (s,a)(s,a)对应的value值,agent会根据Q表中的值决定在状态s 下采用哪种动作。

参考博客:https://blog.csdn.net/qq_33302004/article/details/115530428
https://blog.csdn.net/qq_33302004/article/details/115495686

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值