强化学习应用论文
文章平均质量分 76
强化学习
西西弗的小蚂蚁
不要辜负这美好的时光!
展开
-
PRIORITIZED EXPERIENCE REPLAY
同时,作者还令参数β随着训练时间从初始值不断增大,最终在接近收敛的时候达到1.β和α这两个参数是有联系的,对于同一个样本,在赋予它权重的同时又对其进行修正,同时增大两者将使模型更加积极地优先抽样同时更加强烈的修正它。出于稳定性方面的考虑,作者在最终使用纠正权重前还对其做了归一化处理。原创 2022-09-05 21:01:56 · 214 阅读 · 0 评论 -
A Distributional Perspective on Reinforcement Learning
获得了最先进的结果和轶事证据,证明了值分布在近似强化学习中的重要性。结合理论和经验证据,强调了值分布在近似环境下影响学习的方式。特别地,这需要选择一个近似分布。Tamar et al., 2016),据我们所知,我们是第一个使用丰富的参数分布类。这与强化学习的常见方法相反,后者对这种回报或价值的期望进行建模。尽管已经建立了研究价值分布的文献体系,但迄今为止,它一直被用于特定目的,如实施风险意识行为。然后从分布的角度设计了一种新的算法,该算法将Bellman方程应用于近似值分布的学习。原创 2022-09-05 17:34:06 · 417 阅读 · 0 评论 -
Rainbow: Combining Improvements in Deep Reinforcement Learning
事实上,它们的组合在来自街机学习环境的57款Atari 2600游戏基准套件上产生了最新的结果,无论是数据效率还是最终性能。展示了消融研究的结果,以帮助理解不同成分的贡献。它具有两个计算流,价值流和优势流,共享一个卷积编码器,并由一个特殊的聚合器合并。为了保持选择的大小可管理,我们选择了一组解决不同问题的扩展(例如,只是众多寻址探索中的一个)。DQN算法是一个重要的里程碑,但目前已经发现了该算法的一些局限性,并提出了许多扩展算法。提供了详细的消融研究的结果,显示了每个组件对整体性能的贡献。原创 2022-09-05 16:44:03 · 388 阅读 · 0 评论 -
NOISY NETWORKS FOR EXPLORATION
在NoisyNet方法中,虽然网络线性层中的参数数量增加了一倍,但由于权值是噪声的简单仿射变换,计算复杂度通常仍然由激活乘法的权值控制,而不是生成权值的成本。最近(独立于我们的工作)Plappert等人(2017)提出了一种类似的技术,将恒定的高斯噪声添加到网络的参数中。内在奖励的度量标准,它相对于环境奖励的权重,必须由实验者选择,而不是从与环境的交互中学习。扰动的方差是一个参数,可以认为是注入噪声的能量。,可以在广泛的Atari游戏中获得更高的分数,在某些情况下,将代理的表现从次等提高到超人类。原创 2022-09-05 15:51:31 · 327 阅读 · 0 评论 -
Sample-Based Learning and Search with Permanent and Transient Memories
在这一领域中,最成功的规划方法是基于样本的搜索算法,如UCT,它是对状态进行单独处理的;在这两种情况下,都会形成对价值函数的估计,但在第一种情况下,它是暂时的,在每次移动后计算,然后丢弃,而在第二种情况下,它更持久,在多次移动和游戏中慢慢积累。Dyna-2的思想是将暂态规划记忆和永久学习记忆保持分离,但两者都基于线性函数逼近,并由Sarsa进行更新。仅使用瞬态内存,Dyna-2的性能至少与UCT相当。我们将真实体验中遇到的状态和动作的分布称为学习分布,将模拟体验中遇到的分布称为搜索分布。原创 2022-09-04 16:40:35 · 141 阅读 · 0 评论 -
High Dimensional Continuous Control Using Generalized Advantage Estimation
虽然我们从经验上发现一步回归(λ = 0)会导致过大的偏差和较差的性能,但这些论文表明,在适当调整的情况下,这种方法是可以工作的。该方法在高度挑战性的3D运动任务、学习双足和四足模拟机器人的跑步步态,以及学习使双足动物从一开始躺在地面上站起来的策略方面产生了强大的经验结果。然而,到目前为止,它们在解决困难的控制问题方面的成功是有限的,主要是由于它们的高样本复杂度。解决第一个挑战,以一些偏差为代价,通过类似于TD(λ)的优势函数的指数加权估计来大幅减少策略梯度估计的方差。以及尽管传入的数据是非平稳性,原创 2022-09-04 15:10:32 · 448 阅读 · 0 评论 -
Addressing Function Approximation Error in Actor-Critic Methods
Abstract 在基于价值的RL方法(例如深度Q学习)中,已知函数近似误差会导致高价值估计和次优策略。我们表明,这个问题在actor-critic设置中仍然存在,并提出了新颖的机制以最小化它对actor和critic的影响。我们的算法建立在双重Q学习的基础上,通过采用一对critic之间的最小值来限制高估。我们得出了目标网络与高估偏差之间的联系,并提出延迟策略更新以减小每次更新误差并进一步提高性能。我们在OpenAI gym任务套件上评估了我们的方法,在每种测试环境中均优于最新技术。1. Introdu原创 2022-09-04 14:26:15 · 947 阅读 · 0 评论 -
Deterministic Policy Gradient Algorithms
在实践中,确定性的actor-critic在具有50个连续动作维度的bandit中明显优于随机对应的几个数量级,并解决了具有20个连续动作维度和50个状态维度的挑战性强化学习问题。2)使用确定性策略梯度推导出一种off-policy actor - critic算法,该算法使用可微函数逼近器估计动作价值函数,然后沿着近似动作价值梯度的方向更新策略参数。按照惯例,∇θµθ(s)是一个雅可比矩阵,其中每一列是策略的第一个动作维度相对于策略参数θ的梯度∇θ[µθ(s)]d。我们现在使用确定性策略梯度定理来推导。原创 2022-09-04 11:16:06 · 624 阅读 · 0 评论 -
CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING
在DQN之前,人们普遍认为使用大型的非线性函数逼近器学习值函数是困难的和不稳定的。使用相同的学习算法、网络架构和超参数,所提出算法鲁棒地解决了20多个模拟物理任务,包括cartpole倒车、灵巧操作、腿部运动和汽车驾驶等经典问题。本文的贡献是受DQN成功的启发,对DPG进行了修改,使其能够使用神经网络函数逼近器在大型状态和动作空间中在线学习。我们将该算法称为深度DPG (DDPG,算法1)。1)DQN不能直接应用于连续域,因为它依赖于找到最大化动作值函数的动作,在连续值的情况下,每一步都需要迭代优化过程。原创 2022-09-03 22:28:21 · 314 阅读 · 0 评论 -
Policy Gradient Methods forReinforcement Learning with Function Approximation
主要的新结果是,梯度可以写成一种适合在近似动作值或优势函数的帮助下从经验中进行估计的形式。利用这个结果,首次证明了具有任意可微函数逼近的策略迭代收敛于局部最优策略。函数逼近对强化学习至关重要,但到目前为止,逼近值函数并从中确定策略的标准方法在理论上是难以解决的。给出定理2,我们可以首次证明一种具有函数逼近的策略迭代形式收敛于局部最优策略。对于任何一种MDP,无论是在平均奖励还是开始状态的公式中。原创 2022-09-03 21:35:58 · 291 阅读 · 0 评论 -
Proximal Policy Optimization Algorithms
我们介绍了近端策略优化,这是一种策略优化方法族,使用随机梯度上升的多个时期来执行每次策略更新。这些方法具有信任域方法的稳定性和可靠性,但实现起来要简单得多,只需要对普通策略梯度实现进行几行代码更改,适用于更一般的情况(例如,当为策略和值函数使用联合架构时),并且具有更好的整体性能。实验在一组基准任务上测试了PPO,包括模拟机器人运动和Atari游戏,PPO优于其他在线策略梯度方法,总体上在样本复杂性、简单性和wtime之间取得了良好的平衡。标准策略梯度方法对每个数据样本执行一次梯度更新,原创 2022-09-03 19:03:55 · 353 阅读 · 0 评论 -
Soft Actor-Critic:Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor
结果表明,随机熵最大化强化学习算法可以为提高鲁棒性和稳定性提供一个有希望的途径,而对最大熵方法的进一步探索,包括纳入二阶信息的方法(例如,信赖域(Schulman等人,2015))或更具表现力的策略类,是未来工作的一个令人兴奋的途径。本文提出了最大熵框架下策略迭代的收敛性证明,然后介绍了一种新的算法,该算法基于该过程的近似,可以用深度神经网络实际实现,称为软actor-critic。与其他非策略算法相比,所提出方法非常稳定,在不同的随机种子上取得了非常相似的性能。状态值函数近似于软值。原创 2022-09-03 11:50:14 · 606 阅读 · 0 评论 -
Soft Actor-Critic Algorithms and Applications
在软策略迭代的策略评估阶段,我们希望根据最大熵目标来计算策略π的值。此外,我们证明,与其他非策略算法相比,我们的方法是非常稳定的,在不同的随机种子上实现了类似的性能。在本节中,我们将温度视为一个常数,稍后在第5节中提出对SAC的扩展,自动调整温度以匹配期望中的熵目标。我们对SAC进行了扩展,纳入了一些修改,以加速训练并提高与超参数相关的稳定性,包括一个自动调整温度超参数的约束公式。我们的推导是基于表格设置的,以实现理论分析和收敛性保证,在下一节中,我们将该方法扩展到一般的连续设置。原创 2022-09-03 11:23:05 · 650 阅读 · 0 评论 -
Asynchronous Methods for Deep Reinforcement Learning
通过在不同的线程中运行不同的探索策略,多个actor-learner并行应用在线更新对参数所做的整体更改,可能比单个智能体应用在线更新在时间上的相关性更低。这种并行性还将智能体的数据去相关到一个更平稳的过程中,因为在任何给定的时间步骤,并行智能体将经历各种不同的状态。虽然底层的RL方法有很大的不同,actor- critical是一种基于策略的策略搜索方法,Q-learning是一种基于策略值的非策略方法,但我们使用两个主要思想使所有四种算法在给定设计目标的情况下都具有实用性。原创 2022-09-01 23:34:14 · 661 阅读 · 0 评论 -
Double Q-learning
在一些随机环境中,著名的强化学习算法Q-learning表现非常糟糕。这种糟糕的性能是由对动作值的过高估计造成的。这些过高估计是由于引入了正偏差,因为Q-learning使用最大动作值作为最大期望动作值的近义词。将双估计器应用到Q-learning中,构建了一种新的非策略强化学习算法double Q-learning。本文表明,新算法收敛于最优策略,并且在一些由于q学习的高估而表现不佳的情况下,它表现良好。本文表明,由于对动作值的过大估计,Q-learning在随机mdp中的性能可能很差。原创 2022-09-01 21:38:05 · 1889 阅读 · 0 评论 -
Deep Reinforcement Learning with Double Q-learning(double DQN)
虽然没有完全解耦,但DQN架构中的目标网络为第二值函数提供了一个自然的候选网络,而无需引入额外的网络。首先,我们展示了为什么q学习在大规模问题中可能过于乐观,即使这些问题是确定性的,因为学习的固有估计误差。其次,通过分析Atari游戏的价值估计,我们已经表明,这些高估在实践中比之前承认的更常见和更严重。当然,不精确的价值估计是学习过程中的常态,这表明高估可能比之前认识到的更普遍。然后,我们展示了这种算法不仅产生了更准确的价值估计,而且在一些游戏中获得了更高的分数。,而且还在一些游戏上带来了更好的性能。原创 2022-09-01 20:46:53 · 1017 阅读 · 0 评论 -
Dueling Network Architectures for Deep Reinforcement Learning(Dueling-DQN)
为了实现这一见解,我们设计了一个单一的Qnetwork架构,如图1所示,我们将其称为决斗网络。与原始的dqn一样,决斗网络的较低层是卷积的(Mnih等人,2015)。然而,我们不是使用一个全连接层的序列来跟踪卷积层,而是使用两个全连接层的序列(或流)。在一些州,最重要的是知道采取什么行动,但在许多其他州,选择行动对发生的事情没有任何影响。我们的结果表明,在存在许多相似价值的行动的情况下,这种架构可以带来更好的策略评估。此外,决斗架构使我们的RL智能体在Atari 2600领域的性能超过了最先进的技术。原创 2022-09-01 19:36:02 · 1049 阅读 · 1 评论 -
Deep Recurrent Q-Learning for Partially Observable MDPs(DRQN)
Abstract 深度RL已经为复杂的任务提供了精通的控制器。但是,这些控制器的内存有限,并且依赖于能够在每个决策点感知完整的游戏画面。为了解决这些缺点,本文研究了用循环LSTM替换卷积后的第一个全连接层,从而在DQN中增加循环的影响。最终的DRQN尽管每个时间步骤只能看到一个帧,但可以成功地随时间整合信息,并在标准Atari游戏和具有闪烁游戏画面的部分可观察的等效游戏中达到与DQN相当的性能。此外,在接受部分观测值训练并逐步评估更完整的观测值后,DRQN的性能随可观察性而改变。相反,当接受完整观察并经过原创 2022-09-01 18:48:04 · 1475 阅读 · 0 评论 -
Human-level control through deep reinforcement learning
Abstract 强化学习理论在动物行为上,深入到心理和神经科学的角度,关于在一个环境中如何使得智能体优化他们的控制,提供了一个正式的规范。为了利用强化学习成功的接近现实世界的复杂度的环境中,然而,智能体遇到了一个难题:他们必须从高维感知输入中得到环境的有效表征,然后利用这些来将过去的经验应用到新的场景中去。显著地,人类和其他动物看起来可以通过一个和谐的智能体和层次感知处理系统的有效组合进而解决这个问题。前者通过丰富的神经数据解释了由多巴胺能神经产生的相位信号和时序差分强化学习算法之间的显著并行得到验证。原创 2022-09-01 17:11:03 · 3535 阅读 · 0 评论 -
Playing Atari with Deep Reinforcement Learning
本文提出第一个深度学习模型,使用强化学习成功地直接从高维感知输入中。该模型是一个卷积神经网络,使用Q学习的变体进行训练,将该方法应用于来自Arcade学习环境的7款Atari 2600游戏,没有调整架构或学习算法。在其中6个游戏中,它优于所有之前的方法,在其中3个游戏中超过了人类专家。......原创 2022-08-31 23:03:37 · 605 阅读 · 0 评论 -
强化学习(ICML2022)
它们是互补的,可以为强化学习获得更多信息的反馈:(1)提供更容易的子任务的密集奖励,而(2)修改子任务的环境,使其更具挑战性和多样性。子任务树为每个策略提供了一个易于实现的课程:其自上而下的构建逐渐增加规划器需要生成的子任务,而环境和强化学习之间的对抗性训练遵循自下而上的遍历,从更容易的子任务的密集序列开始,允许更频繁的环境变化。虽然已经对基于模型的算法的悲观变体(例如,具有下界的值迭代)进行了理论上的研究,但它们的无模型变体——不需要显式的模型估计——还没有得到充分的研究,特别是在样本效率方面。...原创 2022-08-31 15:34:07 · 1455 阅读 · 0 评论 -
图神经网络(ICML2022)
由此产生的模型名为FLASH3,与改进的transformer在短(512)和长(8K)上下文长度上的困惑度相匹配,在自回归语言建模方面,在Wiki-40B上实现了高达4.9倍的训练加速,在PG-19上实现了12.1倍的训练加速,在掩码语言建模方面在C4上实现了4.8倍的训练加速。结果表明,所提出方法可以以最小的微调成本实现更高的压缩比,并产生出色的和有竞争力的性能。值得注意的是,具有特征集成的NAFS在这些任务上优于最先进的GNN,并缓解了大多数基于学习的GNN对应方法的上述两个限制。...原创 2022-08-31 15:33:31 · 1830 阅读 · 0 评论 -
Efficient Join Order Selection Learning with Graph-based Representation
为了加快深度强化学习训练过程的收敛速度,采用课程学习的思想,根据查询难度的高低,将查询增量地添加到训练集中。解决低效问题的一个直观想法是在不损害状态表示的表达能力的情况下减少深度神经网络的参数,这是深度强化学习的一个关键组成部分。为此,该框架包含两个基于图的组件,以学习参数较少的信息表示。该问题旨在寻找代价最小的最优连接顺序,由于搜索空间呈指数级增长,通常成为NP-hard问题。然而,基于深度强化学习的方法需要耗时的训练,不适用于需要频繁周期性再训练的在线应用。为了解决基于深度强化学习方法效率低下的问题,原创 2022-08-21 21:01:46 · 153 阅读 · 0 评论 -
Feature and Instance Joint Selection: A Reinforcement Learning Perspective
然而,这种选择大多是单独研究的,而现有的联合选择工作是粗略地进行特征/实例选择;结果表明,如果没有训练者的帮助,agent需要更多的步骤进行探索才能获得更好的结果,而两个训练者都可以帮助更高效的探索和agent学习,尤其是当特征agent和实例agent都接受外部建议时。两个agent将被选择的特征和实例感知为环境的状态,收集数据特征作为奖励,并相互交互以搜索最优的选择结果。我们提出了一个名为双agent交互式增强选择(DAIRS)的框架,用于对联合特征和实例选择任务建模,并向agent引入先验选择知识。.原创 2022-08-05 11:43:23 · 170 阅读 · 0 评论 -
A Reinforcement Learning-Informed Pattern Mining Framework for Multivariate Time Series Classificati
我们的RLPAM框架的概述如图1所示。首先将MTS编码为单变量聚类序列(univariate cluster sequences, UCS),然后利用从UCS中提取的候选模式学习多模式时间序列(multi-pattern time series, MPTS),并通过强化学习模块从中识别出有鉴别能力的模式,同时训练分类模型。RLPAM在30个数据集中的14个以及ehr上的表现优于最先进的基于nn的方法。本文提出一种基于强化学习(RL)的模式挖掘框架(RLPAM),以识别MTS分类中可解释但重要的模式。...原创 2022-08-04 21:09:16 · 355 阅读 · 0 评论 -
强化学习+数据库简单小结
基本思想我们尝试了RL中最经典的Qlearning和DQN模型,但这两种方法都未能解决高维空间(数据库状态,knobs组合)和连续动作(连续knobs)的问题。此外,作为RL的灵魂,奖励函数(rewardfunction,RF)的设计至关重要,直接影响模型的效率和质量。接下来,我们将展示如何调整蒙特卡洛树搜索(MCTS),这是一种流行的RL技术,不需要显式地表示整个状态/动作空间[14],以解决可伸缩性的挑战。Action是旋钮调优操作,在CDB对应的状态下,CDB根据最新的策略执行相应的动作。...原创 2022-07-20 23:31:34 · 957 阅读 · 0 评论 -
Reinforcement Learning Based Dynamic Model Combination for Time Series Forecasting
不同类型的方法,包括基于统计的方法和基于机器学习的方法,已经被研究。为了应对这一挑战,我们提出了一种基于强化学习(RL)的模型组合(RLMC)框架,用于确定时间序列预测任务集合中的模型权重。值得注意的是,我们可以选择不同类型的算法,例如经典的统计模型或神经网络作为基础模型,以增加多样性。给定N个预先训练的模型,动作a=(w1,···,wN)是一个概率单形。当集成模型由多个不同的基础模型组成时,我们面临的是一个搜索空间巨大的连续控制问题。然后,我们从强化学习的角度讨论了模型组合问题的一些见解。...原创 2022-07-17 12:22:28 · 1031 阅读 · 2 评论 -
Trajectory Simplification with Reinforcement Learning
Trajectory Simplification with Reinforcement Learning轨迹数据是一种数据类型,用于捕捉移动物体的轨迹,如车辆、行人、机器人等。它是许多应用的核心,如城市流动性分析,物流,交通,体育比赛[1]等。轨迹数据通常是连续生成的,并由GPS设备等远程传感器收集。一个典型的场景是,传感器周期性地检查坐标和时间,这些坐标和时间对应于一个有时间标记的位置(称为时空点或简单的点),并将这个点存储在缓冲区中。通常,传感器的存储预算较小,计算能力较低,网络带宽有限。随之而来原创 2022-06-06 04:46:37 · 219 阅读 · 0 评论 -
Efficient and Effective Similar Subtrajectory Search with Deep Reinforcement Learning
Efficient and Effective Similar Subtrajectory Search with Deep Reinforcement Learning相似轨迹搜索是一个基本问题,在过去的20年里已经得到了很好的研究。然而,类似的子轨迹搜索(SimSub)问题,目标是返回轨迹的一部分(即子轨迹),这是与查询轨迹最相似的,尽管它可以以一种更细粒度的方式捕获轨迹相似性,并且许多应用都以子轨迹作为分析的基本单元,但它在很大程度上被忽视了。在本文中,我们研究了SimSub问题,并开发了一套算法原创 2022-06-07 00:01:05 · 126 阅读 · 0 评论 -
Efficient and Effective Similar Subtrajectory Search with Deep Reinforcement Learning
Efficient and Effective Similar Subtrajectory Search with Deep Reinforcement Learning摘要:相似轨迹搜索是一个基本问题,在过去的20年里已经得到了很好的研究。然而,类似的子轨迹搜索(SimSub)问题,目标是返回轨迹的一部分(即子轨迹),这是与查询轨迹最相似的,尽管它可以以一种更细粒度的方式捕获轨迹相似性,并且许多应用都以子轨迹作为分析的基本单元,但它在很大程度上被忽视了。在本文中,我们研究了SimSub问题,并开发了一原创 2022-06-09 00:05:55 · 204 阅读 · 0 评论