强化学习——梯度策略求最佳policy

最新推荐文章于 2024-07-25 07:37:07 发布

种西红柿的人

最新推荐文章于 2024-07-25 07:37:07 发布

阅读量144

点赞数

分类专栏：强化学习文章标签：机器学习强化学习深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44895864/article/details/119698901

版权

强化学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

文章目录

前言
1 Machine Learning
2 Three Steps for Deep Learning
3 Goodness of Actor:
4 Gradient Ascent
5 Add a Baseline

前言

前面我们讲了强化学习的一些入门知识，我现在又整理些强化学习的笔记，主要是参考台湾大学李宏毅老师讲的强化学习系列。这一篇主要是介绍value-based reinforcement learning approach，讲到了利用梯度上升找到一个最好的actor。

1 Machine Learning

≈ Looking for a Function

在这里插入图片描述

2 Three Steps for Deep Learning

在这里插入图片描述

Deep Learning is so simple ……
在这里插入图片描述

3 Goodness of Actor:

Total Loss:
在这里插入图片描述
Find the network parameters 𝜽∗ that minimize total loss L
Training Example：

•Given an actor (s) with network parameter 𝜃

4 Gradient Ascent

•Problem statement
在这里插入图片描述
•Gradient ascent

𝑅𝜏 do not have to be differentiable It can even be a black box.

𝛻𝑙𝑜𝑔𝑃(𝜏|𝜃)=?
在这里插入图片描述

5 Add a Baseline

在这里插入图片描述

种西红柿的人

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
强化学习——梯度策略求最佳policy

强化学习——policy-based approach提示：这里可以添加系列文章的所有文章的目录，目录需要自己手动添加例如：第一章 Python 机器学习入门之pandas的使用提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录强化学习——policy-based approach前言1 Machine Learning2 Three Steps for Deep Learning3 Goodness of Actor:4 Gradient Ascent5 Add a Bas
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。