强化学习-策略梯度和PPO

数据铁人

已于 2022-08-26 00:39:02 修改

阅读量1.2k

点赞数

分类专栏：强化学习文章标签：深度学习人工智能

于 2022-08-26 00:17:30 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46714700/article/details/126534856

版权

强化学习中的策略梯度（Policy Gradient）

强化学习和深度学习中的策略梯度不同点

用分类问题来解释
在做分类的问题时，要有输入和正确的输出，要有训练数据。而这些训练数据是从采样的过程来的。假设在采样的过程里面，在某一个状态，你采样到你要采取动作 a，你就把这个动作 a 当作是你的 ground truth。你在这个状态，你采样到要向左。本来向左这件事概率不一定是最高，因为你是采样，它不一定概率最高。假设你采样到向左，在训练的时候，你告诉机器说，调整网络的参数，如果看到这个状态，你就向左。在一般的分类问题里面，其实你在实现分类的时候，你的目标函数都会写成最小化交叉熵(cross entropy)，其实最小化交叉熵就是最大化对数似然(log likelihood)。
做分类的时候，目标函数就是最大化或最小化的对象，因为我们现在是最大化似然(likelihood)，所以其实是最大化，你要最大化的对象，如下式所示:
在这里插入图片描述

像这种损失函数，你可在 TensorFlow 里调用现成的函数，它就会自动帮你算，然后你就可以把梯度计算出来。这是一般的分类问题，RL 唯一不同的地方是 loss 前面乘上一个权重：整场游戏得到的总奖励 R，它并不是在状态 s 采取动作 a 的时候得到的奖励，如下式所示：

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
强化学习-策略梯度和PPO

强化学习中的策略梯度和PPO
复制链接

扫一扫

专栏目录

数据铁人 CSDN认证博客专家 CSDN认证企业博客

码龄4年

47: 原创

46万+: 周排名

175万+: 总排名

1万+: 访问

: 等级

513: 积分

2: 粉丝

3: 获赞

9: 评论

17: 收藏

私信

关注

热门文章

分类专栏

最新评论

李宏毅深度学习task4
大家一起学编程（python）: 别问，问就是好文
李宏毅深度学习task4
彼方: 好文，学习了
图神经网络总结
大家一起学编程（python）: 你以为我发现了好文章吗？不，你以为的没错
图神经网络总结
彼方: 好文，收藏学习了
图神经网络task4
彼方: 好文，已收藏，大佬分析的很到位，明白了很多，大赞！（￣ˇ￣)，大佬有兴趣也可以看下我的博客哈

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。