强化学习（Reinforcement Learning）的方法分类

最新推荐文章于 2024-06-01 02:32:47 发布

wordyang1

最新推荐文章于 2024-06-01 02:32:47 发布

阅读量4.9k

点赞数 4

分类专栏： RL 文章标签： RL

本文链接：https://blog.csdn.net/wordyang1/article/details/76557608

版权

RL 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

强化学习（Reinforcement Learning）的方法分类

从Andrew Ng的cs229公开课开始接触强化学习已经有一段时间了，但对于强化学习中的各种方法一直很混乱，有必要简单归类整理一下，涉及的强化学习方法有：

Value Iteration 值迭代
Policy Iteration 策略迭代
Monte Carlo Learing 蒙特卡洛学习
Q-learning
DQN（Deep Q-learning Network）
Sarsa
Policy Gradient
Actor-Critic
DDPG（Deep Deterministic Policy Gradient）
A3C（Asynchronous Advantage Actor-Critic）

所有的这些强化学习方法都是以马尔可夫决策过程（MDPs）为基础的

强化学习方法分类

这些方法的具体总结以后有时间再做。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

wordyang1

关注关注

4
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

强化学习Reinforcement Learning中的异常检测与处理方法

程序员光剑

06-23

1064

强化学习Reinforcement Learning中的异常检测与处理方法 1.背景介绍 强化学习（Reinforcement Learning, RL）作为机器学习的一个重要分支，近年来在各个领域取得了显著的进展。其核心思想是通过与环境的交互，学习

强化学习Reinforcement Learning与逆强化学习：理论与实践

最新发布

AI大模型应用之禅

06-09

999

引言在当今的科技领域，强化学习（Reinforcement Learning，RL）以其独特的智能探索机制，成为解决复杂决策问题的热门技术之一。而逆强化学习（Inverse Reinforcement Learning，IRL）则是从行为中学习环境奖励函数的一种方法，二者都属于机器学习的范畴，但侧重点不同。本文将深入探讨强化学习与逆强化学习的核心概念、算法

参与评论您还未登录，请先登录后发表或查看评论

强化学习的分类方法

CSDN_LYY的专栏

01-11

3886

总体认识 强化学习是很大的概念，他包含了很多种算法，我们也会一一提到其中一些比较有名的算法，比如有通过行为的价值来选取特定行为的方法，包括使用表格学习的Q Learning方法，sarsa等，使用神经网络学习的Deep Q Network，还有直接输出行为的policy gradients，又或者了解所处的环境，建模出一个虚拟的环境并从虚拟的环境中学习等等。了解强化学习中常用到的几种方法，以及...

强化学习分类

qq_37336280的博客

10-11

2366

【强化学习】强化学习分类在学习强化学习的过程中我们经常会遇到一些陌生的名词分类，什么model-free，offpolicy之类的，学习的时候不明觉厉可能就一眼带过了，但是其实这些分类的名词其实十分有趣，掌握他们十分有助于我们加深对相关强化学习算法的了解。 1、Model-free 和 Model-based 举个栗子：我们刚刚学习强化学习的时候都学习过gridworld这个机器人走迷宫的例子吧，就是有一个迷宫机器人从起点出发通过强化学习的方式选择出到达终点的最优路径。 model-based方式就是我们

强化学习算法的分类

weixin_41106546的博客

04-05

756

另一方面，在实际应用中，学习得到的模型往往是不准确的，这给智能体训练引入了估计误差，基于带误差模型的策略的评估和提升往往会造成策略在真实环境中失效。一些常见的Actor-Critic类的算法包括Actor-Critic（AC）算法(Suttonetal., 2018) 和一系列改进：（1）异步优势Actor-Critic算法（A3C）(Mnihetal.,2016)将Actor-Critic 方法扩展到异步并行学习，打乱数据之间的相关性，提高了样本收集速度和训练效率；与基于模型的方法相比，

强化学习分类与汇总介绍

zephyr_wang的博客

03-18

9361

强化学习分类与汇总介绍

强化学习的方法总结与分类

vmxhc1314的博客

07-24

6510

强化学习中有多种不同的方法，比如说比较知名的控制方法 Q learning，Policy Gradients，还有基于对环境的理解的 model-based RL 等等。了解强化学习中常用到的几种方法,以及他们的区别, 对我们根据特定问题选择方法时很有帮助。接下来我们通过分类的方式来了解他们的区别。第一种分类方法可分为不理解环境（Model-Free RL）和理...

强化学习导论中文版增强学习导论中文版 Reinforcement learning an introduction 中文版.

06-04

6. 深度强化学习（Deep Reinforcement Learning, DRL）：随着深度学习的发展，神经网络被用于估计Q值或策略函数，形成了深度Q网络（Deep Q-Network, DQN）和策略梯度等方法，解决了高维度状态空间的问题，实现了在...

1 why? (强化学习 Reinforcement Learning 教学)

08-31

#1_why__(强化学习_Reinforcement_Learning_教学)

强化学习Reinforcement Learning的功能性安全与风险管理分析

程序员光剑

06-01

975

1.背景介绍在人工智能领域中，强化学习（Reinforcement Learning, RL）是一种重要的学习范式，它关注智能体如何在环境中采取行动以最大化某种累积奖励。随着深度学习和大数据的发展，强化学习已经在多个领域取得了显著的成就，包括游戏、机器人控制、自动驾驶汽车等。然而，尽管其强大的潜力，强化学习在实际应用中的功能性安全和风险管理方面仍然面

强化学习算法分类汇总

白水的博客

02-24

5073

文章目录1. Model-Free 与 Model-Based RL2. Policy-Based 与 Value-Based RL3. Monte-Carlo Update 与 Temporal-Difference Update RL4. On-Policy 与 Off-Policy RL 1. Model-Free 与 Model-Based RL 根据Agent是否理解其所处的环境，可以将强化学习方法分为：无模型的强化学习(Model-Free RL)和基于模型的强化学习(Model-Based R

强化学习方法分类

R18830287035的博客

04-18

989

一、理解环境or感知环境 Model-based：先理解真实世界是怎样的，并建立一个模型来模拟现实世界的反馈，通过想象来预判新下来将要发生的所有情况，然后选择这些想象情况中最好的那种，并依据这种情况来采取下一步的策略。 Model-free：不依赖环境，不尝试去理解环境，Agent会根据现实环境的反馈采取下一步的动作，一步一步等待真实世界的反馈，再根据反馈采取下一步行动。 ■例如Q-learnin...

强化学习方法-分类

YOYO_33的博客

05-06

759

1. 是否理解环境 1.1 不理解环境（Model-Free RL）不理解环境，也不理解环境给的反馈 1.2 理解环境（Model-Based RL）通过过往经验，理解环境，理解环境的反馈，构建虚拟世界（想象力，预判断反馈，执行下一步） 2. 基于XX 2.1 基于概率（Policy-Based RL）基于感知，生成事件概率，根据概率采取行动。（任何行动都有可能）可以适用于连续的 ex：policy gradients 2.2 基于价值 (Value-based RL) 基于感

深度强化学习（二）强化学习算法的分类

热门推荐

daydayjump的博客

06-17

3万+

对于强化学习的分类，主要参考了莫烦大佬的视频和OpenAI的Spinning Up的介绍。一、Model-Free和Model-Based两大类上图是Spinning Up中的分类图。对于model的理解就是强化学习中的环境。根据是否去学习环境来进行分类。根据转移概率是否已知进行分类的。 Model-free就是不去学习和理解环境，环境给出什么信息就是什么信息，常见的方法有polic...

强化学习算法分类

u013599384的博客

06-13

131

强化学习算法分类

强化学习算法——分类

Vic_Hao的博客

03-04

819

强化学习——强化学习的算法分类

chensuanfa的博客

03-25

1067

from:https://www.jianshu.com/p/a04a8c7bee98 上一篇文章回顾了强化学习的核心概念，这里继续通过Open AI 的Spinning Up项目总结强化学习(RL)的算法，通过分类和对比的方法系统介绍强化学习的算法。 1. 算法分类现代强化学习算法分类 ---图片来自Open AI Spinning up 项目--- 由于强化学习是一个更新速度非常快的领域，所以准确地全面地分类是相当困难的，Spinning up 项目组给出的这个分类...

强化学习的几种主要的方法

ahah12345678的博客

10-14

654

策略梯度方法通过直接在策略空间中进行优化来更新策略。Actor-Critic方法则是结合了基于值的方法和基于策略的方法，它通过一个值函数来评估策略的表现，并使用一个策略梯度更新算法来改进策略。α-β剪枝是一种在树中搜索最优策略的算法，它通过剪枝来减少搜索的复杂度MCTS主要用于解决大规模、复杂的博弈问题，如围棋、象棋等。基于值的方法通过估计每个状态-动作对的价值来选择动作，基于策略的方法通过优化策略本身来选择动作，而基于搜索的方法则通过搜索所有可能的动作序列来找到最优策略。

深度强化学习精要：Grokking Deep Reinforcement Learning

"Manning.Grokking.Deep.Reinforcement.Learning.2020.10.pdf - 一本关于深度强化学习的专业书籍，由Miguel Morales撰写，Charles Isbell, Jr.作序，由Manning出版社出版。内容涵盖深度强化学习的理论与实践，旨在...