文献翻译Making Better Decision by Directly Planning in Continuous Control-CSDN博客

本文链接：https://blog.csdn.net/weixin_50232758/article/details/131341247

文章提出了一种名为POMP的策略优化与模型规划算法，它结合了深度微分动态规划（D3P）规划器，以解决在连续动作空间中的决策问题。D3P通过一阶泰勒展开和反馈项优化轨迹中的动作序列，有效处理了动作的无限数量和时间依赖性。在连续控制任务的实验中，POMP展示了较高的样本效率和性能，优于其他基于模型的强化学习方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Making Better Decision by Directly Planning in Continuous Control

在连续控制条件下通过直接规划做出更好决策

摘要

通过合理利用学习环境模型，基于模型的强化学习方法可以提高决策问题的样本效率。除了使用学习环境模型来训练策略之外，基于蒙特卡洛树搜索方法的成功表明，直接将学习好的环境模型作为规划器来制定决策可能更高效。然而，当动作空间维度较高且连续时，直接根据学习到的模型进行规划代价高昂且不平凡。有两个问题：(1)候选动作的无限数量(2)不同时间步长的动作之间具有时间依赖性。为了解决这些问题，我们参考最优控制理论中的微分动态规划(DDP)的思想，并设计了一种新的策略优化与模型规划(POMP)算法，该算法将精心设计的深度微分动态规划(D3P)规划器整合到基于模型的强化学习框架中。在D3P规划器中：(1)为了在连续的动作空间中进行有效的规划，我们构造了一个局部二次规划问题，使用基于梯度的优化过程来代替搜索。(2)为了考虑不同时间步长动作的时间依赖性，我们利用之前时间步长(即步骤1、···、h−1)更新的最新动作来更新当前步骤(即步骤h)的动作，而不是同时更新所有动作。从理论上证明了D3P规划器的收敛速度，并分析了反馈项的影响。在实践中，为了有效地将基于神经网络的D3P规划器应用于强化学习，我们利用策略网络初始化动作序列，并在规划过程中保持动作更新的保守性。实验表明，在广泛应用的连续控制任务中，POMP持续提高了样本效率。我们的代码发布在 https://github.com/POMP-D3P/POMP-D3P。

1 介绍

基于模型的强化学习(RL) (Janner et al., 2019a; Yu et al., 2020; Schrittwieser et al., 2020;Hafner et al., 2021)已经表明其有望成为解决顺序决策问题的通用工具。不同于无模型强化学习算法(Mnih et al., 2015;Haarnoja et al., 2018)，其中控制器直接从真实的非策略数据中学习复杂的策略，基于模型的强化学习方法首先学习关于未知动态的预测模型，然后利用学习到的模型来帮助策略学习。通过几项关键创新(Janner et al., 2019;Clavera et al., 2019)，与无模型的RL算法相比，基于模型的RL算法显示出出色的数据效率和性能，这使得在数据收集艰巨且耗时的现实物理系统中应用它成为可能(Moerland et al., 2020)。

在基于模型的强化学习中，利用学习到的模型主要有两个方向，二者并非相互排斥。在第一类中，模型起到辅助作用，仅通过帮助政策学习来影响决策(Janner et al., 2019b; Clavera et al., 2019)。在第二类中，使用该模型对路径轨迹进行采样，然后对采样的动作进行评分(Schrittwieser et al., 2020)。我们的工作属于第二类，直接使用模型作为规划器(而不仅仅是辅助策略学习)。近期的一些论文(Dong et al., 2020; Hubert et al, 2021; Hansen et al., 2022b)已经开始朝着这个方向前进，他们展示了一些案例来支持其背后的动机。例如，在某些场景中(Dong et al., 2020)，策略可能非常复杂，而模型相对容易学习。

这些想法在离散行动空间中很容易实现，其中MCTS（蒙特卡洛树搜索）在通过搜索进行规划方面非常强大（Silver et al., 2016年; 2017年; Schrittwieser et al., 2020年; Hubert et al., 2021年）。然而，当行动空间是连续的时候，基于树的搜索方法就无法直接应用。存在两个关键挑战：（1）连续和高维度的行动意味着候选行动的数量是无限的。（2）行动之间的时间依赖性意味着先前时间步骤中的行动更新会影响后续的行动。因此，在连续行动空间中的轨迹优化仍然是一个挑战，并且缺乏足够的研究。

为了应对上述挑战，本文在基于模型的强化学习框架中提出了一种策略优化与模型规划（POMP）算法，其中设计了一种新颖的可微分动态规划（D3P）规划器。由于基于模型的强化学习与最优控制理论密切相关，差分动态规划（DDP）（Pantoja et al., 1988年；Tassa et al., 2012年）算法在最优控制理论中的高效性启发了我们设计一个关于动态规划的算法。然而，由于DDP需要一个已知模型并且计算成本较高，在强化学习领域应用DDP算法并不简单。

D3P规划器旨在优化轨迹中的动作序列。D3P的关键创新在于利用最优贝尔曼方程的一阶泰勒展开来高效获取动作更新信号，其可以直观地利用了学习模型的可微性。我们可以在温和假设下从理论上证明D3P的收敛速度。具体来说，（1）D3P使用最优贝尔曼方程的一阶泰勒展开，但仍构建了一个局部二次目标函数。因此，通过利用二次函数极小化问题的解析形式，D3P可以高效地得到局部最优动作。(2)此外，在D3P中引入了一个反馈项，借助贝尔曼方程的帮助。通过这种方式，D3P在规划过程中考虑了之前时间步骤中的动作更新。需要注意的是，D3P是一种即插即用的算法，不引入额外的参数。

当将D3P规划器整合到我们的POMP算法中，应用于基于模型的强化学习框架时，实际挑战是基于神经网络的学习模型通常具有高度非线性和有限的泛化能力。因此，当初始化不好或动作超出分布时，规划过程可能会受到误导。因此，我们提出利用学习策略在规划之前提供动作的初始化，并在规划中引入保守项以满足保守原理，以保持规划过程中学习模型的小误差。总体而言，我们的POMP算法将学习模型、评论家和策略紧密结合，以做出更好的决策。

为了评估算法性能，我们在极限MuJoCo连续控制任务上进行了多个实验。结果表明，我们提出的方法能够显著提高样本效率和渐近性能。此外，还进行了全面的消融研究，验证了我们提出的D3P规划器的必要性和有效性。

本文的主要贡献如下:(1)从理论上推导了D3P规划器，并证明了其收敛速度。(2)设计了一种POMP算法，该算法利用D3P规划器对轨迹中的动作进行了有效的细化。(3)大量的实验结果证明了我们的方法在样本效率和渐近性能方面的优越性。

2 相关工作

相关工作的完整版本在附录A中，我们在这里简要介绍几项高度相关的工作。一般来说，基于模型的强化学习解决决策问题可以分为三个方面：模型学习、策略学习和决策产生。此外，最优控制理论也涉及决策问题，并与基于模型的强化学习密切相关。

模型学习： 如何学习一个好的模型来支持决策是基于模型的强化学习的关键。这项工作主要有两个方面：模型结构设计(Chua et al., 2018; Zhang et al., 2021; 2020; Hafner et al., 2021; Chen et al., 2022)和损失设计(D ’ Oro et al., 2020 et al., Farahmand et al., 2017; Li et al., 2021)。

策略学习： 利用学习到的模型学习策略通常有两种方法。一种是将学习到的模型作为黑盒模拟器来生成数据 (Janner et al., 2019b; Yu et al., 2020; Lee et al., 2020)。另一种方法是使用学习到的模型来计算策略梯度(Heess et al., 2015b; Clavera et al., 2019; Amos et al., 2021)。

决策产生： 在做决策时，我们需要产生能够实现我们目标的行动。许多基于模型的强化学习方法仅通过使用学习策略来做出决策(Hafner et al., 2021)。与我们的论文类似，一些工作也尝试使用学习模型做出决策，但大多数只关注离散动作空间。众所周知的MCTS方法取得了很大的成功。例如，众所周知的Alpha Zero (Silver et al., 2017)，MuZero (Schrittwieser et al., 2020)。只有少数研究连续动作空间的工作，如Continuous UCT (Couetoux et al., 2011)，sampled MuZero (Hubert et al.,2021)，2021)和TD-MPC (Hansen et al., 2022a)。

最优控制理论： 除了深度强化学习，最优控制还考虑决策问题，但依赖于已知和连续的转移模型。在现代最优控制中，当环境高度非线性时，通常采用模型预测控制(Model Predictive Control，MPC)框架。在MPC中，通过使用模型在执行过程中进行动作规划，这个过程被称为轨迹优化。许多先前的研究(Byravan et al., 2021; Chua et al., 2018; Pinneri et al., 2021; Nagabandi et al., 2020)使用MPC框架解决连续控制任务，但其中大多数是基于零阶或基于样本的方法进行规划。最相关的工作是DDP(Murray & Yakowitz，1984)、iLQR(Li & Todorov，2004)和iLQG (Todorov & Li, 2005; Tassa et al., 2012).。我们在附录A中讨论了我们的方法与这些方法之间的详细差异。

由于我们的规划算法依赖于学习到的模型和学习到的策略，我们在模型学习和策略学习的基础上构建了我们的算法。我们的POMP算法试图解决一个比决策相关工作更具挑战性的任务：当环境模型未知时，在连续动作空间中有效地优化轨迹。与我们的工作不同的是，最优控制理论中以DDP为轨迹优化器的MPC需要已知的环境模型，并且需要海森矩阵从头开始在线优化。

3 前言

强化学习： 我们考虑一个离散时间的马尔可夫决策过程(MDP)$\mathcal{M} $，其通过一个元组$ (\mathcal{X},\mathcal{A},f,r,\gamma) $定义，$ \mathcal{X} $其中是状态空间，$ \mathcal{A} $是动作空间，$ f:x_{t+1}=f(x_t,a_t) $是转移模型，$ r:\mathcal{X}\times\mathcal{A}\to \mathbb{R} $是奖励函数，$ \gamma $是折扣因子，我们定义未来 t 时刻的折扣回报为$ R_t=\sum_{t’=t}^{{\infin}\gamma}{t’-t}r_{t’} $，强化学习的目标是寻找一个策略$ \pi_{\theta}:\mathcal{X}\times\mathcal{A}\to\mathbb{R}^+ $使得期望奖励$ J $最大化，即$ $\mathrm{max}_{\theta} J(\theta)=\mathrm{max}_{\theta}\mathbb{E}_{\pi_{\theta}}R_t=\mathrm{max}_{\theta}\mathbb{E}_{\pi_{\theta}}\left[ {\textstyle\sum_{t'=t}^{\infty}}\gamma^{t'-t}r(x_{t'},a_{t'})\right]$ $。

贝尔曼方程： 我们定义最有价值函数 $V^*(x)=\mathrm{max}\mathbb{E}[R_t|x_t=x]$ ，其服从一个重要的恒等式，即贝尔曼最优方程： $V^*(x)=\mathrm{max}_{a_t}\mathbb{E}[r(x_t,a_t|x_t=x)+\gamma V^*(x_{t+1})]$ 这个等式想要告诉我们的是如果我们知道对于任意 $a_t$ 的 $r(x_t,a_t)$ ，和对任意 $s_{t+1}$ 的下一状态价值函数 $V^*(x_{t+1})$ ，我们可以递归地选择动作 $a_t$ 使得 $r(x_t,a_t|x_t=x)+\gamma V^*(x_{t+1})$ 最大化，同理我们可以定义最优动作-价值函数 $Q^*(x,a)=\mathrm{max}\mathbb{E}[R_t|x_t=x,a_t=a]$ ，并且他也服从于于一个类似的贝尔曼最优性方程 $Q^*(x,a)=\mathrm{max}_{a_{t+1}}\mathbb{E}[r_t(x_t,a_t|x_t=x,a_t=a)+\gamma Q^*(x_{t+1},a_{t+1})]$ 。

基于模型的强化学习： 基于模型的强化学习方法通过使用数据来学习转换模型，从而区别于无模型的强化学习方法。继 Janner et al. (2019a) 和 Clavera et al. (2019) 等人之后，我们使用参数化神经网络近似转移函数、奖励函数、策略函数和Q值函数，拟优目标函数为 $J_f(\psi)=\mathbb{E}[\mathrm{log}\ f(x_{t+1}|x_t,a_t)]$ ， $J_{\pi}(\theta)=\mathbb{E}[\sum_{t=0}^{H-1}\gamma^tr(x_t,a_t)+\gamma^HQ(x_H,a_H)]$ ， $J_r(\omega)=\mathbb{E}[\mathrm{log}\ r(r_{t+1}|x_t,a_t)]$ 和 $J_Q=\mathbb{E}[||Q(x_t,a_t)-(r+\tilde{Q}(x_{t+1},a_{t+1}))||_2]$ ，相应的在 $J_π(θ)$ 中，我们截断视界H的轨迹，以避免长时间的模型推出。

符号记法： 对于一维状态和动作的情况，我们用函数的输出下标来表示函数的偏微分，例如 $r_x\doteq \frac{\partial r(x,a)}{\partial x}$ ， $r_a\doteq \frac{\partial r(x,a)}{\partial a}$ ， $f_x\doteq \frac{\partial f(x,a)}{\partial x}$ ， $f_a\doteq \frac{\partial f(x,a)}{\partial a}$ ， $Q_x\doteq \frac{\partial Q(x,a)}{\partial x}$ ， $Q_a\doteq \frac{\partial Q(x,a)}{\partial a}$ 。多维情况见附录E。

4 在连续的动作空间中规划

在本节中，我们将详细介绍POMP算法和D3P规划器。首先，我们推导了基于Bellman方程的D3P规划器。然后从理论上证明了它的收敛性。最后，我们展示了如何将D3P规划器有效地应用于RL的POMP算法中。

4.1 深度微分动态规划

在本小节中，我们将从理论上推导D3P规划器并证明其收敛性。连续行动空间规划主要面临两个问题：(1)候选行动的无限数量;(2)不同时间步长行动之间的时间依赖性。

在这里，我们简要介绍解决上述挑战的D3P计划器的主要思想。我们首先定义一个目标函数，并将其表述为基于Bellman方程的优化问题。然后，我们将其转化为一个局部优化问题，并通过泰勒展开近似目标函数。为了避免计算海森矩阵，我们使用一阶泰勒展开来构造一个二次函数。由于二次函数的解析解容易得到，因此我们可以有效地得到局部最优动作序列，从而在一定程度上解决了问题(1)。为了解决问题(2)，我们在目标函数中引入了一个反馈项来描述由先前时间步长的动作更新引起的状态变化。通过考虑明确包含先前动作更新信息的反馈项，我们可以及时纠正动作更新。剩下的问题是，在推导算法时，经过多次近似后，D3P规划器是否确实能够优化原目标。理论分析表明，该算法的收敛速度是有保证的。

现在我们介绍如何导出D3P规划器。为了申明，我们使用有限视界MDP作为概念设置的证明。状态和动作是一维变量。具有多维状态和动作的无限视界MDP可以类似地推导出来，我们将其列在附件E中。回顾强化学习方法的目标，我们的规划算法旨在找到能够使值函数 $V(x_1,1)\doteq \mathrm{max}_{a_1,...,a_H}\sum_{h=1}^Hr(x_h,a_h)$ 最大化的动作序列 ${a_1,...a_H\}$ ，其中 $x_{h+1}=f(x_h,a_h)$ 。

由于问题(1)存在，因此这样的最优动作序列通常很难找到。我们的D3P规划器将这个最优动作序列搜索问题视为一个优化问题，利用最优Bellman方程来制定以下目标函数：
$V(x_h,h)=\max_{a_h}[r(x_h,a_h)+V(f(x_h,a_h),h+1)]$
由于奖励函数和转移函数是未知的，我们将使用神经网络来近似它们。然而，优化问题是高度非凸的，因此，我们考虑一个辅助目标，即在当前动作a的邻域中找到局部最优a + δa，以将动作从a改进到a + δa。令 $Q(x_h,a_h)=r(x_h,a_h)+V(f(x_h,a_h),h+1)$ ，我们的目标可以重新表示为 $δ_{ah} = \mathrm{argmax}_{\delta_a}[Q(x_h,a_h+δa)]$ 。

为了加速优化过程，D3P规划器构造了一个二次目标函数，解析得到了局部最优行为。具体地说，我们建议使用一阶泰勒展开来避免计算海森矩阵。然而，一阶泰勒展开不能直接得到二次目标函数，因此我们首先寻求一个替代目标函数 $a)\doteq (Q(x, a)−V_{max})^2$ ，其中Vmax是一个常数，且设为大于Q(x, a)的上界。很容易检验出 $\mathrm{argmax}_{\delta_a}D(x，a+\delta a)\doteq \mathrm{argmax}_{\delta_a}Q(s,a+\delta_a)$ 。

对于问题(2)，直观地看，在更新了前一个时间步长的动作后，状态 $x_{t+1}$ 将发生变化，我们应该相应地更新动作 $x_{a+1}$ 。这种方式通常被称为“反馈”。为了实现反馈控制，我们现在考虑Q(x + δx, a + δa)，其中δx表示由于先前动作更新而引起的状态变化。对D函数中的Q函数应用一阶泰勒展开式，我们可以得到δa的二次函数：
$\tilde{D} (x+\delta x,a+\delta a)=(Q(x,a)+Q_a(x,a)\delta a+Q_x(x,a)\delta x-V_{max})^2$
我们现在得到最优动作更新 $δa^*$ 作为反馈 $δ x$ 的函数，表示 $k_h=\frac{Q(x_h,a_h)-V_{max}}{Q_a(x_h,a_h)}$ 和 $K_h=\frac{Q(x_h,a_h)}{Q_a(x_h,a_h)}$ ，
$\delta a_h^*=-k_h-K_h\delta x_h=-\frac{Q(x_h,a_h)-V_{max}}{Q_a(x_h,a_h)}-\frac{Q(x_h,a_h)}{Q_a(x_h,a_h)}\delta x_h$
剩下的部分是如何计算更新规则Q中的 $Q_x(x, a)$ ， $Q_a(x, a)$ ，
$Q_a(x_h,a_h)=r_a(x_h,a_h)+V_x(f(x_h,a_h),h+1)\cdot f_a(x_h,a_h)\\ Q_x(x_h,a_h)=r_x(x_h,a_h)+V_x(f(x_h,a_h),h+1)\cdot f_x(x_h,a_h)$
通过利用包含奖励和转移函数的可微模型，只有价值函数 $V_x(f(x_h, a_h)，h+ 1)$ 的梯度难以计算。我们再次使用Bellman方程和Taylor展开来计算 $V_x(f(x_h, a_h)， h + 1)$ 。将 $δa_h^*$ 带入Bellman方程并使用Taylor展开，
$V(x_h+\delta x_h,h)=Q(x_h+\delta x_h,a_h+\delta a_h^*)\\ =(Q(x_h,a_h)-Q_a(x_h,a_h)k_h)+(Q_x(x_h,a_h)-Q_a(x_h,a_h)K_h)\delta x_h$
我们现在可以用泰勒展开 $V (x_h + δx_h, h)$ 一阶项的系数来计算 $V_x$ ，
$V_x=Q_x(x_h,a_h)-Q_a(x_h,a_h)K_h$
整个D3P规划器如算法1所示。请注意，我们目前的方法应用于确定性环境，但我们的D3P规划器可以通过重新参数化技巧轻松扩展到随机环境(例如Kingma & Welling(2013)的正态分布噪声)。由于在算法的推导过程中采用了近似方法，因此需要收敛性保证。
在这里插入图片描述
定理1： 设 ${{x_h,a_h}\}_{h=1,···,H}$ 表示长度为 $T$ 的序列中的当前状态和动作。设 ${a'_h= a_h + δa_h\}_{h=1,···,H}$ 表示D3P规划器更新一次的新动作。在温和的假设下，我们可以证明对于 $h\in{1,···,H}$ ，存在常数C和B，使得
$||a'_h-a_h^*||\le \sum_{k=1}^{H} ||a'_k-a_k^*||^2+B\sum_{k=1}^{H} ||a'_k-a_k^*||$
其中，C正比于转移函数和奖励函数的Lipschitz(记为 $L_1$ )和平滑度(记为 $L_2$ )常数， $\mathcal{O} (L_1, L_2)$ ， B正比于转移函数和奖励函数二阶导数的尺度， $\mathcal{O} (f_{aa},f_{ax},f_{xx},r_{aa},r_{ax},r_{xx})$ 。

上述定理表明，如果我们能为规划过程选择一个好的初始点，就可以保证规划过程的渐近收敛。对于有限样本情况，收敛速率至少为线性收敛。如果过渡函数二阶导数接近于零(B足够小)，则收敛速度接近于二次收敛。引理2给出了直观的解释。在这种情况下，D的二阶导数可以近似为 $Q$ 的一阶导数乘以 $f$ 和 $r$ 的一阶导数。例如 $D_{aa}≈Q_aQ_a$ 。

进一步从收敛速率的角度分析了反馈项的影响。

推论1： 如果我们不考虑反馈项 $(δ x = 0)$ ，收敛速率为 $||a'_h-a_h^*||\le \sum_{k=1}^{H} ||a'_k-a_k^*||^2+B\sum_{k=1}^{H} ||a'_k-a_k^*||+\frac{Q_x(x_h,a_h)}{Q_a(x_h,a_h)}\sum_{i=h-1}^1\prod_{j=i+1}^{h-1}f_x(x_i,a_i)[f_a(x_i,a_i)\delta a_i+C\delta a_i^2]$ 。

该推论表明，如果我们不考虑不同时间步长的动作之间的时间依赖性，即 $δ x = 0$ ，则收敛速度将比带有额外误差项的式(12)慢。直观感受是因为我们沿着轨迹优化动作序列，动作更新将改变轨迹。假设我们的目标是状态和行为的函数，不同的状态将导致不同的最佳行为。因此，如果我们在之前的时间步长中不考虑由于动作更新而导致的状态变化，那么动作更新的方向就不会朝着真正的梯度方向。此外，影响与状态变化的大小成正比，状态变化的大小由系统特性 $f_x, f_a)$ 和前一个动作更新 $δa_i$ 决定。

4.2 具有模型规划的策略优化:实际实现

在本小节中，我们将展示如何将D3P计划器应用于深度RL框架。由于D3P规划器是一种即插即用算法，与MAAC等传统的基于模型的RL算法(Clavera et al, 2019)相比，只有决策部分有所不同。POMP算法总结见附录b。注意，D3P规划器模块没有引入任何额外的神经网络。所有网络结构，包括模型、批评家和政策都与MAAC (Clavera et al ., 2019)和MBPO (Janner et al ., 2019b)相同。

在应用D3P规划器之前需要解决的一个关键问题是如何避免由于学习模型的泛化能力有限而导致的误导性规划。只要基真模型是未知的，这个问题就不能被忽视，而基真模型只能通过函数逼近的数据来学习。为了减轻模型误差的影响，我们在算法中考虑了初始化策略和保守规划目标两个部分。

对于初始化策略，我们提出使用策略网络和学习模型来初始化状态-动作轨迹。也就是说，D3P规划器使用的初始动作是学习策略的输出。理由如下：(1)由于该策略与一般基于模型的强化学习一样是为了最大化收益而训练的，因此所提出的行为将是合理的和有竞争力的，这比随机初始化要好。(2)由于用于训练策略的数据是从缓冲区中采样的，因此策略网络输出的动作应该导致较小的模型预测误差。

对于保守规划目标，将D3P规划器输出的动作约束在训练数据附近，可以保持模型预测误差较小，并为规划器提供额外的正则化。具体来说，由于策略输出是多元高斯的，我们可以很容易地计算给定状态动作对的对数似然 $logP(x_i, a_i)$ 。对数似然被用作辅助奖励，我们在评估阶段做计划时将其添加到奖励函数的输出中。具体来说，我们在第一步增加了一个额外的奖励，D3P的优化目标变成了 $Jc(\{a_i,···,a_{i+H−1}\})=\sum_{h=i}^{i+H−2}r(x_h, a_h)+Q(x_{i+H−1},a_{i+H−1})+\alpha logP(x_i,a_i)$ ，其中 $\alpha$ 是一个超参数。请注意，我们只在评估时使用这个保守目标，因为我们希望在训练时鼓励探索。

5 实验

在本节中，我们的目标是回答以下问题：(1)与最先进的方法相比，我们的方法在基线连续控制任务上的表现如何？(2)为了在持续控制中做出更好的决策，规划是否必要？(3)我们的D3P规划器在持续控制方面是否有优势？(4)学习到的模型质量如何影响决策？(5)我们的D3P是否有效地优化了轨迹质量？(6)策略网络在我们的框架中是否必要？为了回答上述问题，我们在MuJoCo模拟器中对我们的方法在连续控制基线任务上进行了评估 (Todorov et al., 2012)。我们的方法是建立在MAAC之上的(Clavera et al., 2019)，这意味着模型学习、策略优化以及相应的超参数的过程与MAAC相同。更多细节见附录C.3。由于篇幅限制，我们将基线方法的详细描述留在附录C.4中。

5.1 与现有方法比较

为了回答第一个问题，我们将我们的方法与六种SOTA基线方法进行了比较，结果如图1所示。具体来说，无论是渐近性能还是样本效率，我们的方法在所有六个任务上都显示出对MAAC的显着性能改进，我们的方法是建立在MAAC之上的。此外，在具有高维动作空间的蚂蚁和人形两种控制任务上，我们的方法的改进更为明显。总的来说，我们的方法比其他所有基于模型和无模型基线的方法取得了更好的性能，这证明了我们的方法的有效性和通用性。请注意，在类人任务中，MAGE在早期训练阶段的样本效率比我们的好，但我们的方法在最终结果上比MAGE好，并且MAGE在所有其他任务上都比我们的方法差。
在这里插入图片描述

图1：我们的方法和其他基线方法在6个连续控制任务上的学习曲线。实线代表不同随机种子的10(对于我们的方法)/5(对于其他基线方法)的平均值，阴影区域对应于试验中的STD。在这些强无模型和基于模型的强化学习方法中，我们的方法取得了最好的效果。

5.2 消融实验

在本节中，我们进行了几个消融实验来回答之前提出的问题(2)和(6)，并展示了我们方法中提出的组件的必要性和有效性。

为了在持续控制中做出更好的决策，计划是否必要？ 我们设计了实验来验证两种可能的决策方法的有效性：(1)使用模型进行规划；(2)在算法2中增加 $N_p$ ，即我们从真实环境中收集1个数据后，策略网络的更新次数，然后依靠策略进行决策。这里我们将 $N_p$ 从10(在MAAC原始实现中)增加到 ${20,50,100\}$ ，看看增加策略的更新次数是否有助于策略优化，结果在图2中展示。如图所示，原MAAC中 $N_p = 10$ 是一个比较好的选择，并且增加Np会损害策略优化。然而，我们的方法使用学习到的模型作为计划器，可以持续地改进策略。

在这里插入图片描述

图2：每次迭代中策略的更新时间 $N_p$ 的消融。我们可以看到，增加 $N_p$ 无助于策略优化。

我们的D3P计划器在持续控制方面有优势吗？ D3P规划器考虑时间依赖性，构造局部二次目标函数，对策略网络提出的初始轨迹进行优化。为了验证方法的优越性，我们将方法中的D3P规划器替换为类似sgd的规划器，该规划器直接用梯度上升对动作序列进行优化；随机射击计划器(Press et al., 2007)，它在整个动作空间中随机抽取一些行动，然后根据奖励和批评函数对这些行动进行评分；交叉熵法(CEM)规划器(Rubinstein & Kroese, 2004; Hansen et al., 2022a)，它以复杂的方式自适应迭代地调整采样分布。请注意，我们只改变了其中的规划器，并保持模型和策略学习不变，以进行公平的比较。结果如图3所示，我们可以看到类似SGD的规划器(用SGD规划器表示的POMP)的执行与策略网络(用MAAC表示)相似，并且对策略(MAAC)的改进是有限的。我们的方法(用带有D3P规划器的POMP表示)比类似sgd的规划器更有效。此外，我们的方法与CEM计划(用CEM表示)，随机射击规划(用random-shooting表示)之间的差距清楚地表明了一阶方法(与零阶方法相比)的效率。

在这里插入图片描述

图3：D3P计划器的消融研究。我们将方法中的D3P规划器替换为类似sgd的规划器、CEM计划器和随机射击规划器，结果显示了D3P规划器的优势。

学习到的模型质量如何影响决策？ 由于我们的方法是在学习环境模型中通过规划来优化轨迹的，因此关键的一部分是观察学习模型的质量如何影响规划结果。为了回答这个问题，我们选择了4种不同训练数据量的学习模型(训练数据越多，学习模型的质量越好)。然后根据策略网络的性能将其聚类为6组。最后，我们将不同的质量模型与每个策略组结合起来，以查看在学习到的模型和策略上应用D3P计划器后的平均性能改进。首先，对于每一个模型和每个策略，我们使用10个轨迹评估平均回报。然后，我们根据学习到的模型和策略的训练数据和平均收益对它们进行聚类，然后计算每个聚类的平均性能改进。从图4(a)所示的结果来看：(1)仅使用10k训练数据训练的模型的改进与使用更多数据训练的模型的改进相似(除了5k ~ 6k稍差)，这意味着在我们的D3P计划器中使用早期模型就足够了；(2)我们的D3P规划器可以持续地直接提高策略网络决策的性能，特别是在前期和中期。

在这里插入图片描述

图4：(a)将不同训练步骤的学习模型应用于不同质量的策略的改进情况。“改进”是指使用D3P规划器的评估回报减去不使用D3P规划器的回报。“策略质量”是指策略在环境中应用时的平均收益，“ $ik\sim (i + 1)k$ ”表示平均收益在 $ik\sim(i + 1)k$ 的策略集群。“模型 $ik$ ”表示使用 $ik$ 数据训练的学习模型。(b) D3P中不同迭代次数 $N_d$ 的改进(算法1中的第4行)。“模型质量”表示用于训练模型的训练数据的数量，“ $ik\sim jk$ ”表示具有 $ik\sim jk$ 训练数据的学习模型。©关于我们方法中策略使用的消融。"RADN"表示具有随机初始化轨迹的POMP，而不是D3P中策略生成的轨迹。“ $N_d = i$ ”表示迭代次数为i的POMP，“ $N_d = i\ \mathrm{w/o cons}$ ”表示迭代次数为 $i$ 且求值时不包含保守项的POMP。

我们的D3P能有效地优化轨迹质量吗？ 同样，我们根据他们使用的训练数据对学习的模型进行聚类，并将其与固定的策略(平均回报率约为4k)结合起来，并查看D3P计划器中使用的不同迭代次数Nd的影响。从图4(b)所示的结果来看:(1)随着我们使用更多的迭代次数，性能改进会增加，这表明我们的方法是有效的;(2)当Nd >= 6时，改进效果基本相同，且不需要更多的迭代，证明了本文方法的有效性;(3)结果还表明，早期模型对我们的D3P规划器是足够的。

策略网络在我们的框架中是必要的吗？ 在我们的D3P规划器中，策略网络有两种用法：(1)初始化待优化的轨迹，(2)在评估过程中添加一个保守项作为辅助奖励。为了验证我们的方法中策略网络的必要性，我们进行了消融实验，结果如图4©所示。首先，当我们使用随机生成的轨迹而不是策略网络提出的轨迹时，D3P没有找到任何有意义的动作(用RAND表示)，这证明了轨迹初始化的重要性。其次，随着D3P计划器迭代次数的增加，带保守项的D3P计划器的性能始终优于不带保守项的D3P计划器，尤其是在策略网络接近最优的后期。这意味着当我们使用较大的迭代次数 $N_d$ 时，学习模型的通用性受到限制，需要约束方法的优化空间。

6 结论及后续工作

在这项工作中，我们首先推导了D3P规划器，该规划器对连续控制是有效和高效的，并证明了其收敛速度。然后，我们提出了POMP算法，该算法在一个实用的基于模型的RL框架中利用了我们的D3P规划器。对基准连续控制任务的大量实验和消融研究证明了该方法的有效性，并显示了将模型规划应用于连续控制的好处。对于未来的工作，考虑到模型的不确定性可以有效地权衡探索和利用，如何正确地估计并将学习模型的不确定性纳入规划是一个有意义的课题。