强化学习
文章平均质量分 74
强化学习
西西弗的小蚂蚁
不要辜负这美好的时光!
展开
-
强化学习基础
此外,我们还证明了DQN学习到的表示能够泛化为从策略生成的数据,而不是在模拟中,我们将其作为输入呈现给人类和anget玩游戏时所经历的网络游戏状态,记录最后一个隐藏层的表示,并可视化了t-SNE算法生成的嵌入(扩展数据图1和补充讨论)。我们使用了一种特别成功的架构,即深卷积网络,它使用分层的层叠卷积滤波器来模拟感受野的影响,这种效应是由Hubel和Wiesel在早期视觉皮层的前馈处理方面的开创性工作所启发的,从而利用图像中的局部空间相关性,以及增强对自然变化的鲁棒性,如视角或尺度的变化。原创 2024-04-25 09:46:49 · 351 阅读 · 0 评论 -
Efficiently Learning Spatial Indices
在超过1亿个点的真实数据集上的实验表明,ELSI可以在不影响查询效率的情况下,一致地减少四种不同的学习空间索引的构建时间(最多减少两个数量级)。由于学习空间索引所需的模型训练成本很高,因此通过模型训练和再训练的方式在大数据集上高效地构建和重建已学习的空间索引是一项挑战。方法scorer的关键元素是两个ffn(图4中的组件2),一个估计方法P的索引构建成本,用CB(·)表示,另一个估计方法P构建索引的查询成本,用CQ(·)表示。这些方法并不构建新的索引类型,而是构建(或找到)类似于输入数据集D的小数据集。原创 2023-07-05 14:06:56 · 90 阅读 · 0 评论 -
PRIORITIZED EXPERIENCE REPLAY
同时,作者还令参数β随着训练时间从初始值不断增大,最终在接近收敛的时候达到1.β和α这两个参数是有联系的,对于同一个样本,在赋予它权重的同时又对其进行修正,同时增大两者将使模型更加积极地优先抽样同时更加强烈的修正它。出于稳定性方面的考虑,作者在最终使用纠正权重前还对其做了归一化处理。原创 2022-09-05 21:01:56 · 214 阅读 · 0 评论 -
A Distributional Perspective on Reinforcement Learning
获得了最先进的结果和轶事证据,证明了值分布在近似强化学习中的重要性。结合理论和经验证据,强调了值分布在近似环境下影响学习的方式。特别地,这需要选择一个近似分布。Tamar et al., 2016),据我们所知,我们是第一个使用丰富的参数分布类。这与强化学习的常见方法相反,后者对这种回报或价值的期望进行建模。尽管已经建立了研究价值分布的文献体系,但迄今为止,它一直被用于特定目的,如实施风险意识行为。然后从分布的角度设计了一种新的算法,该算法将Bellman方程应用于近似值分布的学习。原创 2022-09-05 17:34:06 · 417 阅读 · 0 评论 -
Rainbow: Combining Improvements in Deep Reinforcement Learning
事实上,它们的组合在来自街机学习环境的57款Atari 2600游戏基准套件上产生了最新的结果,无论是数据效率还是最终性能。展示了消融研究的结果,以帮助理解不同成分的贡献。它具有两个计算流,价值流和优势流,共享一个卷积编码器,并由一个特殊的聚合器合并。为了保持选择的大小可管理,我们选择了一组解决不同问题的扩展(例如,只是众多寻址探索中的一个)。DQN算法是一个重要的里程碑,但目前已经发现了该算法的一些局限性,并提出了许多扩展算法。提供了详细的消融研究的结果,显示了每个组件对整体性能的贡献。原创 2022-09-05 16:44:03 · 388 阅读 · 0 评论 -
NOISY NETWORKS FOR EXPLORATION
在NoisyNet方法中,虽然网络线性层中的参数数量增加了一倍,但由于权值是噪声的简单仿射变换,计算复杂度通常仍然由激活乘法的权值控制,而不是生成权值的成本。最近(独立于我们的工作)Plappert等人(2017)提出了一种类似的技术,将恒定的高斯噪声添加到网络的参数中。内在奖励的度量标准,它相对于环境奖励的权重,必须由实验者选择,而不是从与环境的交互中学习。扰动的方差是一个参数,可以认为是注入噪声的能量。,可以在广泛的Atari游戏中获得更高的分数,在某些情况下,将代理的表现从次等提高到超人类。原创 2022-09-05 15:51:31 · 327 阅读 · 0 评论 -
Sample-Based Learning and Search with Permanent and Transient Memories
在这一领域中,最成功的规划方法是基于样本的搜索算法,如UCT,它是对状态进行单独处理的;在这两种情况下,都会形成对价值函数的估计,但在第一种情况下,它是暂时的,在每次移动后计算,然后丢弃,而在第二种情况下,它更持久,在多次移动和游戏中慢慢积累。Dyna-2的思想是将暂态规划记忆和永久学习记忆保持分离,但两者都基于线性函数逼近,并由Sarsa进行更新。仅使用瞬态内存,Dyna-2的性能至少与UCT相当。我们将真实体验中遇到的状态和动作的分布称为学习分布,将模拟体验中遇到的分布称为搜索分布。原创 2022-09-04 16:40:35 · 141 阅读 · 0 评论 -
High Dimensional Continuous Control Using Generalized Advantage Estimation
虽然我们从经验上发现一步回归(λ = 0)会导致过大的偏差和较差的性能,但这些论文表明,在适当调整的情况下,这种方法是可以工作的。该方法在高度挑战性的3D运动任务、学习双足和四足模拟机器人的跑步步态,以及学习使双足动物从一开始躺在地面上站起来的策略方面产生了强大的经验结果。然而,到目前为止,它们在解决困难的控制问题方面的成功是有限的,主要是由于它们的高样本复杂度。解决第一个挑战,以一些偏差为代价,通过类似于TD(λ)的优势函数的指数加权估计来大幅减少策略梯度估计的方差。以及尽管传入的数据是非平稳性,原创 2022-09-04 15:10:32 · 448 阅读 · 0 评论 -
Addressing Function Approximation Error in Actor-Critic Methods
Abstract 在基于价值的RL方法(例如深度Q学习)中,已知函数近似误差会导致高价值估计和次优策略。我们表明,这个问题在actor-critic设置中仍然存在,并提出了新颖的机制以最小化它对actor和critic的影响。我们的算法建立在双重Q学习的基础上,通过采用一对critic之间的最小值来限制高估。我们得出了目标网络与高估偏差之间的联系,并提出延迟策略更新以减小每次更新误差并进一步提高性能。我们在OpenAI gym任务套件上评估了我们的方法,在每种测试环境中均优于最新技术。1. Introdu原创 2022-09-04 14:26:15 · 947 阅读 · 0 评论 -
Deterministic Policy Gradient Algorithms
在实践中,确定性的actor-critic在具有50个连续动作维度的bandit中明显优于随机对应的几个数量级,并解决了具有20个连续动作维度和50个状态维度的挑战性强化学习问题。2)使用确定性策略梯度推导出一种off-policy actor - critic算法,该算法使用可微函数逼近器估计动作价值函数,然后沿着近似动作价值梯度的方向更新策略参数。按照惯例,∇θµθ(s)是一个雅可比矩阵,其中每一列是策略的第一个动作维度相对于策略参数θ的梯度∇θ[µθ(s)]d。我们现在使用确定性策略梯度定理来推导。原创 2022-09-04 11:16:06 · 624 阅读 · 0 评论 -
CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING
在DQN之前,人们普遍认为使用大型的非线性函数逼近器学习值函数是困难的和不稳定的。使用相同的学习算法、网络架构和超参数,所提出算法鲁棒地解决了20多个模拟物理任务,包括cartpole倒车、灵巧操作、腿部运动和汽车驾驶等经典问题。本文的贡献是受DQN成功的启发,对DPG进行了修改,使其能够使用神经网络函数逼近器在大型状态和动作空间中在线学习。我们将该算法称为深度DPG (DDPG,算法1)。1)DQN不能直接应用于连续域,因为它依赖于找到最大化动作值函数的动作,在连续值的情况下,每一步都需要迭代优化过程。原创 2022-09-03 22:28:21 · 314 阅读 · 0 评论 -
Policy Gradient Methods forReinforcement Learning with Function Approximation
主要的新结果是,梯度可以写成一种适合在近似动作值或优势函数的帮助下从经验中进行估计的形式。利用这个结果,首次证明了具有任意可微函数逼近的策略迭代收敛于局部最优策略。函数逼近对强化学习至关重要,但到目前为止,逼近值函数并从中确定策略的标准方法在理论上是难以解决的。给出定理2,我们可以首次证明一种具有函数逼近的策略迭代形式收敛于局部最优策略。对于任何一种MDP,无论是在平均奖励还是开始状态的公式中。原创 2022-09-03 21:35:58 · 291 阅读 · 0 评论 -
Proximal Policy Optimization Algorithms
我们介绍了近端策略优化,这是一种策略优化方法族,使用随机梯度上升的多个时期来执行每次策略更新。这些方法具有信任域方法的稳定性和可靠性,但实现起来要简单得多,只需要对普通策略梯度实现进行几行代码更改,适用于更一般的情况(例如,当为策略和值函数使用联合架构时),并且具有更好的整体性能。实验在一组基准任务上测试了PPO,包括模拟机器人运动和Atari游戏,PPO优于其他在线策略梯度方法,总体上在样本复杂性、简单性和wtime之间取得了良好的平衡。标准策略梯度方法对每个数据样本执行一次梯度更新,原创 2022-09-03 19:03:55 · 353 阅读 · 0 评论 -
Soft Actor-Critic:Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor
结果表明,随机熵最大化强化学习算法可以为提高鲁棒性和稳定性提供一个有希望的途径,而对最大熵方法的进一步探索,包括纳入二阶信息的方法(例如,信赖域(Schulman等人,2015))或更具表现力的策略类,是未来工作的一个令人兴奋的途径。本文提出了最大熵框架下策略迭代的收敛性证明,然后介绍了一种新的算法,该算法基于该过程的近似,可以用深度神经网络实际实现,称为软actor-critic。与其他非策略算法相比,所提出方法非常稳定,在不同的随机种子上取得了非常相似的性能。状态值函数近似于软值。原创 2022-09-03 11:50:14 · 606 阅读 · 0 评论 -
Soft Actor-Critic Algorithms and Applications
在软策略迭代的策略评估阶段,我们希望根据最大熵目标来计算策略π的值。此外,我们证明,与其他非策略算法相比,我们的方法是非常稳定的,在不同的随机种子上实现了类似的性能。在本节中,我们将温度视为一个常数,稍后在第5节中提出对SAC的扩展,自动调整温度以匹配期望中的熵目标。我们对SAC进行了扩展,纳入了一些修改,以加速训练并提高与超参数相关的稳定性,包括一个自动调整温度超参数的约束公式。我们的推导是基于表格设置的,以实现理论分析和收敛性保证,在下一节中,我们将该方法扩展到一般的连续设置。原创 2022-09-03 11:23:05 · 650 阅读 · 0 评论 -
Asynchronous Methods for Deep Reinforcement Learning
通过在不同的线程中运行不同的探索策略,多个actor-learner并行应用在线更新对参数所做的整体更改,可能比单个智能体应用在线更新在时间上的相关性更低。这种并行性还将智能体的数据去相关到一个更平稳的过程中,因为在任何给定的时间步骤,并行智能体将经历各种不同的状态。虽然底层的RL方法有很大的不同,actor- critical是一种基于策略的策略搜索方法,Q-learning是一种基于策略值的非策略方法,但我们使用两个主要思想使所有四种算法在给定设计目标的情况下都具有实用性。原创 2022-09-01 23:34:14 · 661 阅读 · 0 评论 -
Double Q-learning
在一些随机环境中,著名的强化学习算法Q-learning表现非常糟糕。这种糟糕的性能是由对动作值的过高估计造成的。这些过高估计是由于引入了正偏差,因为Q-learning使用最大动作值作为最大期望动作值的近义词。将双估计器应用到Q-learning中,构建了一种新的非策略强化学习算法double Q-learning。本文表明,新算法收敛于最优策略,并且在一些由于q学习的高估而表现不佳的情况下,它表现良好。本文表明,由于对动作值的过大估计,Q-learning在随机mdp中的性能可能很差。原创 2022-09-01 21:38:05 · 1889 阅读 · 0 评论 -
Deep Reinforcement Learning with Double Q-learning(double DQN)
虽然没有完全解耦,但DQN架构中的目标网络为第二值函数提供了一个自然的候选网络,而无需引入额外的网络。首先,我们展示了为什么q学习在大规模问题中可能过于乐观,即使这些问题是确定性的,因为学习的固有估计误差。其次,通过分析Atari游戏的价值估计,我们已经表明,这些高估在实践中比之前承认的更常见和更严重。当然,不精确的价值估计是学习过程中的常态,这表明高估可能比之前认识到的更普遍。然后,我们展示了这种算法不仅产生了更准确的价值估计,而且在一些游戏中获得了更高的分数。,而且还在一些游戏上带来了更好的性能。原创 2022-09-01 20:46:53 · 1017 阅读 · 0 评论 -
Dueling Network Architectures for Deep Reinforcement Learning(Dueling-DQN)
为了实现这一见解,我们设计了一个单一的Qnetwork架构,如图1所示,我们将其称为决斗网络。与原始的dqn一样,决斗网络的较低层是卷积的(Mnih等人,2015)。然而,我们不是使用一个全连接层的序列来跟踪卷积层,而是使用两个全连接层的序列(或流)。在一些州,最重要的是知道采取什么行动,但在许多其他州,选择行动对发生的事情没有任何影响。我们的结果表明,在存在许多相似价值的行动的情况下,这种架构可以带来更好的策略评估。此外,决斗架构使我们的RL智能体在Atari 2600领域的性能超过了最先进的技术。原创 2022-09-01 19:36:02 · 1049 阅读 · 1 评论 -
Deep Recurrent Q-Learning for Partially Observable MDPs(DRQN)
Abstract 深度RL已经为复杂的任务提供了精通的控制器。但是,这些控制器的内存有限,并且依赖于能够在每个决策点感知完整的游戏画面。为了解决这些缺点,本文研究了用循环LSTM替换卷积后的第一个全连接层,从而在DQN中增加循环的影响。最终的DRQN尽管每个时间步骤只能看到一个帧,但可以成功地随时间整合信息,并在标准Atari游戏和具有闪烁游戏画面的部分可观察的等效游戏中达到与DQN相当的性能。此外,在接受部分观测值训练并逐步评估更完整的观测值后,DRQN的性能随可观察性而改变。相反,当接受完整观察并经过原创 2022-09-01 18:48:04 · 1475 阅读 · 0 评论 -
Human-level control through deep reinforcement learning
Abstract 强化学习理论在动物行为上,深入到心理和神经科学的角度,关于在一个环境中如何使得智能体优化他们的控制,提供了一个正式的规范。为了利用强化学习成功的接近现实世界的复杂度的环境中,然而,智能体遇到了一个难题:他们必须从高维感知输入中得到环境的有效表征,然后利用这些来将过去的经验应用到新的场景中去。显著地,人类和其他动物看起来可以通过一个和谐的智能体和层次感知处理系统的有效组合进而解决这个问题。前者通过丰富的神经数据解释了由多巴胺能神经产生的相位信号和时序差分强化学习算法之间的显著并行得到验证。原创 2022-09-01 17:11:03 · 3535 阅读 · 0 评论 -
Playing Atari with Deep Reinforcement Learning
本文提出第一个深度学习模型,使用强化学习成功地直接从高维感知输入中。该模型是一个卷积神经网络,使用Q学习的变体进行训练,将该方法应用于来自Arcade学习环境的7款Atari 2600游戏,没有调整架构或学习算法。在其中6个游戏中,它优于所有之前的方法,在其中3个游戏中超过了人类专家。......原创 2022-08-31 23:03:37 · 605 阅读 · 0 评论