R-learning 基于价值与基于策略

最新推荐文章于 2024-03-17 14:59:53 发布

廷益--飞鸟

最新推荐文章于 2024-03-17 14:59:53 发布

阅读量939

点赞数 1

分类专栏：强化学习文章标签：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45875105/article/details/120653263

版权

强化学习专栏收录该内容

8 篇文章 1 订阅

订阅专栏

强化学习可以分为

基于价值(value-based)
确定性策略：通过训练Q表格或者Q网络, 获得确定的动作（Action）
经典算法：
Sarsa, Q-learning, DQN
基于策略 (policy-based)
随机性策略通过训练Policy策略网络，获得动作的概率（Action 随机策略）
经典算法：
蒙特卡洛（MD）
时序差分（Actor-Critic）

策略梯度函数
在这里插入图片描述

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
0
评论
R-learning 基于价值与基于策略

强化学习可以分为基于价值(value-based)确定性策略：通过训练Q表格或者Q网络, 获得确定的动作（Action）经典算法：Sarsa, Q-learning, DQN基于策略 (policy-based)随机性策略通过训练Policy策略网络，获得动作的概率（Action 随机策略）经典算法：蒙特卡洛（MD）时序差分（Actor-Critic）策略梯度函数...
复制链接

扫一扫

专栏目录

博客等级

码龄5年

614
原创

550
点赞

3623
收藏

2万+
粉丝

关注

私信

热门文章

分类专栏

C#_Halcon_框架相关付费 12篇
pyqt5 机器视觉深度学习付费 35篇
机器视觉-Halcon 付费 6篇
量化交易付费 42篇
Halcon 89篇
C# 63篇
C++ 15篇
python 120篇
pytorch 8篇
Opencv-python 90篇
强化学习 8篇
paddlepaddle 3篇
django 18篇
TensorFlow 70篇
GUI 14篇
web 15篇
微信小程序 1篇
Linux 1篇
MySql 14篇
Unity3D 3篇
OpenCV-C++ 19篇
ROS 2篇

最新评论

halcon 缺陷检测傅里叶变换去除文字
廷益--飞鸟: 其实你两个问题属于一个问题，就是傅里叶光谱图中相关的属性。一般情况下，变化突出的区域是前景，变化微弱的一般为背景。至于最小灰度阈值，就是依靠经验与观察分析了。总体来说并不是很好用，需要对光谱图片做经验分析，尝试分析出前景与背景。
halcon 缺陷检测傅里叶变换去除文字
Tianwen_running: 写的非常详细，想请教两个问题 1，如何确认文字和纹理对应得complex图中的位置呢 2，您是如何考虑MinGray := [50, 100]这两个数值的期望得到您的回答
halcon 缺陷检测药片检测（有无）
ali777777: 很不错，点赞👍🏻
OpenCV python 轮廓(连通域)最小外接矩形
廷益--飞鸟: min_rect 里面有中心和长宽
OpenCV python 轮廓(连通域)最小外接矩形
2302_76550586: 你好，up怎么获取最小外接矩形的长宽呢？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

廷益--飞鸟 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。