强化学习基础分类

最新推荐文章于 2022-03-27 13:30:13 发布

Lezvin

最新推荐文章于 2022-03-27 13:30:13 发布

阅读量137

点赞数

分类专栏：强化学习笔记

本文链接：https://blog.csdn.net/x3464/article/details/108816106

版权

强化学习笔记专栏收录该内容

19 篇文章 2 订阅

订阅专栏

跟着莫烦老师的强化学习教程时做的笔记，原贴：https://mofanpy.com/tutorials/machine-learning/reinforcement-learning/

几大要素：

State

Action

Reward

mlagents-learn D:\ML-Agent\ml-agents-master\config\sac\Fight.yaml --env=D:\ML-Agent\Training\ml-selfplay-fighter --run-id=firstRun

Model-Free RL 不理解环境（只能一步一步走）

Model-Based RL 理解环境（能通过想象预判情况）

基于概率和价值分类

基于概率（Policy-Based RL） -可以适用于连续action

根据概率进行行动

基于价值（Value-Based RL） -通常用于离散action

根据最高价值进行行动

Q-Learning（基于价值）

Sarsa

Policy Gradients（基于概率）

Actor-Critic（两者的结合）

Actor基于概率做出动作，Critic根据动作给出价值

回合更新和单步更新

回合更新：基础班Policy Gradients，Monte-Carlo Learing

单步更新：Q Learning，Sarsa，升级版的Policy Gradients（更有效率）

在线学习（On-Policy）和离线学习（Off-Policy）

Sarsa

Sarsa(λ)（在线学习）

Q Learing

Deep Q Network（离线学习）

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Lezvin

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

深度强化学习（二）强化学习算法的分类

daydayjump的博客

06-17

3万+

对于强化学习的分类，主要参考了莫烦大佬的视频和OpenAI的Spinning Up的介绍。一、Model-Free和Model-Based两大类上图是Spinning Up中的分类图。对于model的理解就是强化学习中的环境。根据是否去学习环境来进行分类。根据转移概率是否已知进行分类的。 Model-free就是不去学习和理解环境，环境给出什么信息就是什么信息，常见的方法有polic...

从0开始强化学习——强化学习的简介和分类

志远的博客

01-11

2736

目录写在前面 1. 强化学习简介 2. 强化学习分类写在前面最近一直在给老板打工，已经很久没有写过博文了，最近打算系统学习一遍强化学习，所以就开个新坑，和大家分享一下在学习过程中的收获，未来一段时间将不定期更新~ 本文内容 1. 强化学习简介 2. 强化学习分类一、 强化学习简介 强化学习（Reinforcement Learning, RL），是机器学习常见的方法之一，用于描述和解决智能体（agent）在与环境的交互过程中通过学习策略以达成回报最大化或实现特定...

参与评论您还未登录，请先登录后发表或查看评论

初探强化学习(12)各种类型强化学习算法的流程图，用于对比分析

qq_33328642的博客

03-27

4307

1. Q-learning 建立一个Q Table来保存状态s和将会采取的所有动作aaa，Q(s,a)Q(s,a)Q(s,a)。在每个回合中，先随机初始化第一个状态，再对回合中的每一步都先从Q Table中使用ϵ−贪婪基于当前状态 sss （如果Q表没有该状态就创建s−as-as−a的行，且初始为全0）选择动作 aaa，执行aaa，然后得到新的状态s’s’s’和当前奖励r，同时更新表中Q(s,a)Q(s,a)Q(s,a)的值，继续循环到终点。整个算法就是一直不断更新 Q table 里的值，再根据更新值来

【强化学习】强化学习分类

热门推荐

shura的技术空间

06-21

1万+

https://github.com/tigerneil/deep-reinforcement-learning-family https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/1-1-B-RL-methods/ ——-主要引用morvan老师的教学视频【强化学习】强...

强化学习方法分类

R18830287035的博客

04-18

989

一、理解环境or感知环境 Model-based：先理解真实世界是怎样的，并建立一个模型来模拟现实世界的反馈，通过想象来预判新下来将要发生的所有情况，然后选择这些想象情况中最好的那种，并依据这种情况来采取下一步的策略。 Model-free：不依赖环境，不尝试去理解环境，Agent会根据现实环境的反馈采取下一步的动作，一步一步等待真实世界的反馈，再根据反馈采取下一步行动。 ■例如Q-learnin...

强化学习基础

喜欢打酱油的老鸟

01-06

3444

https://www.toutiao.com/a6641864763305361927/ 2019-01-02 19:47:27 内容目录：一、强化学习的成功二、概念和基础 2.1设计强化学习系统 2.2人工智能环境类型三、问题公式化 3.1数学公式 3.2马尔可夫决策过程 3.3价值函数四、RL训练术语 4.1基于模型与无模型 4.2On-policy与...

强化学习的方法总结与分类

vmxhc1314的博客

07-24

6510

强化学习中有多种不同的方法，比如说比较知名的控制方法 Q learning，Policy Gradients，还有基于对环境的理解的 model-based RL 等等。了解强化学习中常用到的几种方法,以及他们的区别, 对我们根据特定问题选择方法时很有帮助。接下来我们通过分类的方式来了解他们的区别。第一种分类方法可分为不理解环境（Model-Free RL）和理...

强化学习总结

perfectzxiny的博客

07-14

2868

强化学习 一、强化学习概述 1.强化学习简介 强化学习最早可以追溯到早期控制论以及统计、心理学、神经科学、计算机科学等学科的一些研究。在最近的五到十年中，强化学习在机器学习和人工智能研究者中得到了大量的关注，它描绘了一种在不进行具体指导的情况下通过对智能体进行奖励与惩罚而完成任务的编程方式。但是完成这一想法有着巨大的计算困难。（1）强化学习是机器学习中的一个领域，强调如何基于环境而行动，以取得最大化的预期利益。其灵感来源于心理学中的行为主义理论，即有机体如何在环境给予的奖励或惩罚的刺激下，逐步形成对刺激

强化学习的分类方法

CSDN_LYY的专栏

01-11

3886

总体认识 强化学习是很大的概念，他包含了很多种算法，我们也会一一提到其中一些比较有名的算法，比如有通过行为的价值来选取特定行为的方法，包括使用表格学习的Q Learning方法，sarsa等，使用神经网络学习的Deep Q Network，还有直接输出行为的policy gradients，又或者了解所处的环境，建模出一个虚拟的环境并从虚拟的环境中学习等等。了解强化学习中常用到的几种方法，以及...

强化学习理论部分.pdf

08-20

标题中提到的“强化学习理论部分.pdf”，是关于强化学习的理论知识的总结，理论部分是该领域的基石，它涉及的核心概念、算法分类以及学习框架对于理解和实现强化学习至关重要。描述中提到这份笔记是根据《强化学习...

Python开发基于强化学习的自动化裁剪CIFAR识别分类系统源码.zip

06-22

Python开发基于强化学习的自动化裁剪CIFAR识别分类系统源码.zipPython开发基于强化学习的自动化裁剪CIFAR识别分类系统源码.zipPython开发基于强化学习的自动化裁剪CIFAR识别分类系统源码.zipPython开发基于强化学习...

基于强化学习A3C算法实现网络流量异常识别分类python源码+数据集+详细注释.zip

最新发布

07-26

基于强化学习A3C算法实现网络流量异常识别分类python源码+数据集+详细注释.zip基于强化学习A3C算法实现网络流量异常识别分类python源码+数据集+详细注释.zip基于强化学习A3C算法实现网络流量异常识别分类python源码+...

深度学习学习笔记六

x3464的博客

11-10

2378

理论： 1.网络优化递度下降：批量递度下降（BGD）、随机梯度下降（SGD）、小批量递度下降(MBGD) 批量递度下降（BGD）：优点：一次迭代是对所有样本进行计算，此时利用矩阵进行操作，实现了并行。由全数据集确定的方向能够更好地代表样本总体，从而更准确地朝向极值所在的方向。当目标函数为凸函数时，BGD一定能够得到全局最优。缺点：当样本数目 m 很大时，每迭代一步都需要对所有样本计算，训练过程会很慢。从迭代的次数上来看，BGD迭代的次数相对较少。其迭代的收敛曲线示意...

深度学习学习笔记一

x3464的博客

10-21

1323

数学基础 logistic函数 logistic函数也就是经常说的sigmoid函数，它的几何形状也就是一条sigmoid曲线。 Sigmoid 是常用的非线性的激活函数，可以将全体实数映射到（0， 1）区间上，其采用非线性方法将数据进行归一化处理；sigmoid函数通常用在回归预测和二分类（即按照是否大于0.5进行分类）模型的输出层中。优点： ...

深度学习学习笔记五

x3464的博客

11-08

1199

理论：前馈神经网络的问题卷积的作用和卷积的运算 https://www.cnblogs.com/shine-lee/p/9932226.html 函数角度：从这个角度看，多层卷积是在进行逐层映射，整体构成一个复杂函数，训练过程是在学习每个局部映射所需的权重，训练过程可以看成是函数拟合的过程。模板匹配角度：即认为卷积核定义了某种模式，卷积（相关）运算是在计算每个位置与该模式的相似程度，或者说每个位置具有该模式的分量有多少，当前位置与该模式越像，响应越强。一维...

深度学习学习笔记三

x3464的博客

11-05

1034

1.回归和分类都是有监督学习问题嘛？分类与回归，这两者都属于监督学习的范畴，都是学习的方法。之所以会去两个不同的名字，就是因为其对应的输出值形式不同，仅此而已。对于回归任务其输出值是连续的实数值，而对于分类任务其输出值为离散的类别数。因此这两者的本质是一样的，仅仅是输出形式不同而已。当然由于其输出形式不同，在构建误差函数（就是监督系统中的使得盒子往正确答案发展的驱动装置）时会有区分，这里对于分类和回归的误差函数的设计不多做介绍，后续会单独聊一聊。链接：https://www.jiansh...

VR+强化学习 格斗游戏相关文献资料

x3464的博客

11-28

1031

整体思路：自训练AI -> 玩家键盘接入交互 -> 搭虚拟环境 -> 体感交互(Kinect) -> VR设备+体感交互对手Agent模块设计：这块主要用强化学习来做存在的问题：AI强度设置（已有相关论文研究AI强度适宜问题）【见另一个文档】主要需要关心：玩家的舒适/满意度 FightingICE 核心思想：设置一个Balancing Constant（平衡常数）值，在格斗游戏中，这个值往往设置成双方生命量的差异。观测参数设置：物理空间...

深度学习学习笔记 AlexNet优化

x3464的博客

11-15

885

https://blog.csdn.net/u011268787/article/details/84926246 https://blog.csdn.net/u011268787/article/details/85043511 class AlextNet(nn.Module): def __init__(self, in_channel, n_class): super(AlextNet, self).__init__() # 第一阶段 s

深度学习学习笔记二

x3464的博客

11-04

825

理论： 1.线性判别函数和决策边界线性判别函数若分属于ω1，ω2的两类模式可用一方程d(x) =0来划分，那么称d(x) 为判别函数，或称判决函数、决策函数。一个线性分类模型（Linear Classiﬁcation Model）或线性分类器（Linear Classiﬁer），是由一个（或多个）线性的判别函数f(x,w)= wTx+b和非线性的决策函数g(·)组成。两类分类（Binary Classiﬁcation）的类别标签y只有两种取值，通常可以设为{+1,−1}。在两...

深度强化学习详解：从MDPs到DRL

在深入理解深度强化学习之前，我们首先需要了解基础概念。强化学习（Reinforcement Learning, RL）是机器学习的一个重要分支，与监督学习和无监督学习并列。监督学习通过已标注的数据来训练模型进行分类或回归预测，...

强化学习 基础分类

强化学习基础分类