policy gradient 存疑

DC虫虫

于 2021-10-17 19:40:00 发布

阅读量63

点赞数

分类专栏：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45547419/article/details/120814824

版权

强化学习交叉熵策略梯度

强化学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1，关键点在于损失函数的计算，损失函数由两部分组成，一是根据一回合的总收益计算出的每步收益。二是每步的概率。
2，计算收益时，从后往前算，最后标准化。
3，概率怎么计算呢？方法一是在由概率分布的随机sample出一个action后，算action对应的正态分布中的概率。再进行log。
（为什么不用sample的概率呢？不过也还可以理解）
方法二，算实际的action（作为target）与根据obs算出的估计action的概率分布的交叉熵。已包含log。

所以综上，疑问就是：概率怎么计算？

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
policy gradient 存疑

1，关键点在于损失函数的计算，损失函数由两部分组成，一是根据一回合的总收益计算出的每步收益。二是每步的概率。2，计算收益时，从后往前算，最后标准化。3，概率怎么计算呢？方法一是在由概率分布的随机sample出一个action后，算action对应的正态分布中的概率。再进行log。（为什么不用sample的概率呢？不过也还可以理解）方法二，算实际的action（作为target）与根据obs算出的估计action的概率分布的交叉熵。已包含log。所以综上，疑问就是：概率怎么计算？...
复制链接

扫一扫

专栏目录

DC虫虫 CSDN认证博客专家 CSDN认证企业博客

码龄5年

166: 原创

28万+: 周排名

194万+: 总排名

3万+: 访问

: 等级

1701: 积分

1: 粉丝

8: 获赞

14: 评论

14: 收藏

私信

关注

热门文章

分类专栏

gpu 1篇
pyside6 1篇
C++学习笔记 2篇
python 61篇
笔记 2篇
强化学习 2篇
生活记录 1篇
算法笔记 84篇
leetcode 48篇

最新评论

划水跨考复试被刷调剂上岸再划水选导师
DC虫虫: hhhh我也又看了几遍，确实有点好笑，对待考试不够严肃，总是静不下心来
划水跨考复试被刷调剂上岸再划水选导师
三千寒: 看了几遍，写的很接地气，让人看了想笑，感觉你学习能力太强了
（存疑）vscode + jupyter notebook报错session can not generate requests
DC虫虫: 我还不知道，其他代码就没出现过这个问题。
（存疑）vscode + jupyter notebook报错session can not generate requests
jasonliunn: 您好，请问您知道出现这个问题的具体原因是什么吗，每次都在代码前加入这个也只是一个暂时的解决方案，如何永久解决这个问题呢？
（存疑）vscode + jupyter notebook报错session can not generate requests
jasonliunn: 您好，请问您知道出现这个问题的具体原因是什么吗，每次都在代码前加入这个也只是一个暂时的解决方案，如何永久解决这个问题呢？

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。