长期以来,如何提升数据利用效率被认为是强化学习落地应用的一大桎梏。过去非策略(off-policy)的强化学习虽然能反复利用收集到的数据来进行策略优化,然而这些方法未能最大限度地利用重放缓冲区(Replay buffer)中的信息,导致了样本效率与策略优化性能不足。此外,基于模型(Model-based)的强化学习通过学习环境模型的方式提取了数据中的信息,然而这样的方法训练耗时过长,并且容易受到模型外推误差的影响。
图片
近期,清华大学计算机系罗宇博士,孙富春教授等在CCF A类会议International Conference on Machine Learning 2024发表的工作,提出了离线策略提升的在线演员-评论家的无模型强化学习训练框架。在6个任务类的53个任务中,包含了多关节运动控制、机械臂操作任务、复杂肌肉控制等,该方法超越了经典的非策略无模型强化学习方法,并与基于模型的强化学习方法具有相当的采样效率和性能,而训练耗时降低了5倍,参数量降低了2倍,显著提升了训练效率。
一、离线策略在在线训练中的优势
由于非策略强化学习在训练过程中使用重放缓冲区来存放数据,因此引入离线强化学习来挖掘缓冲区中的高质量数据成为了一种高效利用的方案。为了探究引入离线最优策略是否具有优势,本工作使用OpenAI Gym中的任务,并设计了三种智能体进行了一系列实验。
(1)在线训练的非策略智能体:使用Soft Actor Critic (简称SAC)作为非策略强化学习算法,通过智能