【强化学习】Actor-critic演员评论家算法

最新推荐文章于 2024-07-26 18:49:21 发布

菜鸟果果

最新推荐文章于 2024-07-26 18:49:21 发布

阅读量1.6k

点赞数

文章标签：算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45523256/article/details/122869478

版权

Actor-critic演员评论家算法

演员评论家算法是一种结合了基于价值和基于策略的算法。

Actor：是策略函数。用策略梯度算法来实现。输入的是当前状态，输出的是一个动作。训练目标是最大化累计回报的期望。
critic：是价值函数。用时序差分法（TD）算法来实现。对当前策略的值函数进行估计，也就是评价actor的好坏，并指导actor下一步的行为。
Actor 基于概率选行为, Critic 基于 Actor 的行为评判行为的得分, Actor 根据 Critic 的评分修改选行为的概率。

Actor-critic算法过程

在这里插入图片描述

策略梯度Policy Gradient

策略梯度算法利用reward奖励直接对选择行为的可能性进行增强和减弱，好的行为会被增加下一次被选中的概率，不好的行为会被减弱下次被选中的概率。

策略梯度的主要过程

先初始化一个策略网络θ
用这个策略网络进行N 次游戏，产生N个τ（游戏记录）
利用这N 个τ 进行梯度上升，调整策略网络的参数：
重复2,3步

Q-leaning算法

QLearning是强化学习算法中value-based的算法，Q即为Q（s,a）就是在某一时刻的 s 状态下(s∈S)，采取动作a (a∈A)动作能够获得收益的期望，环境会根据agent的动作反馈相应的回报reward r，所以算法的主要思想该方法会建立一个Q表，里面存储了每一对( s , a ) (s,a)(s,a)对应的value值，agent会根据Q表中的值决定在状态s 下采用哪种动作。

参考博客：https://blog.csdn.net/qq_33302004/article/details/115530428
https://blog.csdn.net/qq_33302004/article/details/115495686

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。