李宏毅深度学习——强化学习

最新推荐文章于 2024-05-28 14:29:23 发布

wkywcd

最新推荐文章于 2024-05-28 14:29:23 发布

阅读量1.4k

点赞数 1

文章标签：深度学习机器学习 pytorch

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wkywcd/article/details/120196882

版权

本文详细介绍了强化学习（RL）的基本概念，包括RL的框架、Policy Gradient方法，重点讨论了Actor-Critic算法，包括Value Function的估计、优化策略以及解决稀疏奖励问题的Reward Shaping和逆向增强学习。通过模仿学习，解决无明确奖励场景下的学习问题。

摘要由CSDN通过智能技术生成

一、RL是什么

在这里插入图片描述
当人类也不知道正确答案是什么的时候，适合用RL，机器知道哪一步是合适的。

二、RL的框架

1、第一步：Function with unknown

以空间入侵游戏为例：
输入的是游戏画面，输出是不同行为的概率（相同的输入可能有不同的输出，输出具有随机性）
在这里插入图片描述

2、第二步：定义损失函数

看到一个游戏画面会产生行为然后会产生游戏的reward，再接下去另一个游戏画面输出行为，一直持续到游戏结束，将所有的reward相加，并且最大化reward，RL的损失函数为负的Total reward。
在这里插入图片描述

3、第三步：Optimization

在这里插入图片描述

环境和actor都具有随机性

三、Policy gradient

（1）如何控制你的actor

对于一个具体的观察如果要有一个固定的行为，就使损失函数越小越好
如果是不要采取一个行为，就使损失函数越大越好

即：

a、收集训练资

最低0.47元/天解锁文章

关注

1
点赞
踩
18

收藏

觉得还不错? 一键收藏
1
评论
李宏毅深度学习——强化学习

强化学习一、RL是什么二、RL的框架1、第一步：Function with unknown2、第二步：定义损失函数3、第三步：Optimization三、Policy gradient（1）如何控制你的actor（2）如何确定哪个行为是好的版本1（3）如何确定哪个行为是好的版本2（4）如何确定哪个行为是好的版本3（5）exploration四、Actor-Critic1、Gritic（1）如何估计value function（2）将critic用在Actor中2、Tip of Actor-Critic五、R
复制链接

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。