Reinforcement Learning for Non-Stationary Markov Decision Processes: The Blessing of (More) Optimism

最新推荐文章于 2023-12-17 12:56:11 发布

zzzzz忠杰

最新推荐文章于 2023-12-17 12:56:11 发布

阅读量347

点赞数

分类专栏： RL&OR 文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/weixin_43889128/article/details/125333621

版权

RL&OR 专栏收录该内容

56 篇文章 14 订阅

订阅专栏

Wang Chi Cheung 1 David Simchi-Levi 2 Ruihao Zhu 2

摘要

我们在漂移的非平稳性下考虑马尔可夫决策过程 (MDP) 中的未折现强化学习 (RL)，即奖励和状态转换分布都允许随着时间的推移而演变，只要它们各自的总变化通过合适的量化指标，不要超过某些变化预算。我们首先开发了带有置信度扩展的强化学习的滑动窗口上置信界 (SWUCRL2-CW) 算法，并在已知变化预算时建立其动态后悔界。此外，我们提出了 Bandit-over-Reinforcement Learning (BORL) 算法来自适应调整 SWUCRL2-CW 算法以实现相同的动态后悔界限，但以无参数方式，即不知道变化预算。值得注意的是，通过传统的乐观探索技术学习非平稳 MDP 提出了现有（非平稳）强盗学习设置中不存在的独特挑战。我们通过一种新的信心扩大技术克服了挑战，该技术结合了额外的乐观情绪。

1 引言

考虑一个通用的顺序决策框架，其中决策者 (DM) 迭代地与最初未知的环境交互。在每个时间步，DM 首先观察环境的当前状态，然后选择一个可用的动作。之后，她会收到一个瞬时随机奖励，然后环境转换到下一个状态。 DM 旨在设计一种政策，使最大化其累积奖励，同时面临以下挑战： • 内生性：在每个时间步，奖励遵循奖励分布，后续状态遵循状态转移分布。两种分布都（仅）取决于受政策影响的当前状态和行动。因此，环境可以完全由离散时间马尔可夫决策过程（MDP）来表征。
• 外生性： 奖励和状态转换分布随时间步长变化（独立于策略），但总变化受各自变化预算的限制。
• 不确定性： DM 最初不知道奖励和状态转换分布。
• Bandit/Partial Feedback： DM 只能在每个时间步观察当前状态和动作所导致的奖励和状态转换。
事实证明，该框架可以捕获许多应用，例如广告（ad）拍卖中的实时竞价（Cai et al., 2017; Flajolet & Jaillet, 2017; Balseiro & Gur, 2019; Guo et al. ，2019；韩等人，2020）。
此外，该框架可用于对交通（Zhang & Wang，2018；Qin 等，2019）、无线网络（Zhou & Bambos，2015；Zhou 等，2016）、消费者选择中的顺序决策问题进行建模建模 (Xu & Yun, 2020)、拼车 (Taylor, 2018; Gurvich et al., 2018; Bimpikis et al., 2019; Kanoria & Qian, 2019)、医疗保健运营 (Shortreed et al., 2010)、流行病控制（Nowzari 等人，2016 年；Kiss 等人，2017 年）和库存控制（Huh 和 Rusmevichientong，2009 年；Bertsekas，2017 年；Zhang 等人，2018 年；Agrawal 和 Jia，2019 年；Chen 等人，2019a ）。
在考虑这四个挑战的一部分的顺序决策中存在许多工作。关于随机多臂老虎机 (MAB) 的传统研究流 (Auer et al., 2002a; Bubeck & CesaBianchi, 2012; Lattimore & Szepesvári, 2018) 侧重于不确定性和老虎机反馈之间的相互作用（即挑战 3 和 4 ) 和 (Auer et al., 2002a) 提出了经典的上置信界 (UCB) 算法。从 (Burnetas & Katehakis, 1997; Tewari & Bartlett, 2008; Jaksch et al., 2010)开始，已经有大量作品（见第 3 节）
致力于 MDP 中的强化学习 (RL) (Sutton & Barto, 2018)，这进一步涉及内生性。 MDP 中的 RL 包含挑战 1、3、4，而随机 MAB 是 MDP 只有一个状态时的特例。在没有外生性的情况下，奖励和状态转移分布在时间上是不变的，这三个挑战可以通过强化学习的上置信界 (UCRL2) 算法共同解决 (Jaksch et al., 2010)。
UCB 和 UCRL2 算法利用面对不确定性的乐观 (OFU) 原则，根据历史数据的整个集合迭代地选择操作。
然而，当外生性出现时，两种算法都会迅速恶化，因为环境会随着时间而变化，并且历史数据会变得过时。为了解决外生性的挑战，(Garivier & Moulines, 2011b) 考虑了分段平稳的 MAB 环境，其中奖励分布在特定时间段内保持不变并在未知时间步长处发生变化。后来，(Besbes et al., 2014) 发起了一系列研究，研究了一般的非平稳 MAB 环境 (Besbes et al., 2014; Cheung et al., 2019a;b)，其中奖励分布可以随时间任意变化，但总变化（通过合适的指标量化）受变化预算的上限（Besbes et al., 2014）。目的是最小化动态遗憾，即与最优动作序列的累积奖励相比的最优差距。
（相对限制性）分段平稳 MAB 和一般非平稳 MAB 设置都考虑了外生性、不确定性和部分反馈的挑战（即挑战 2、3、4），但不存在内生性（挑战 1）。
在本文中，为了解决上述所有四个挑战，我们在非平稳 MDP 中考虑 RL，其中机器人的奖励和状态转换分布可以随时间变化，但总变化（通过合适的指标量化）由各自的上限变化预算。我们注意到，在 (Jaksch et al., 2010) 中，作者还考虑了分段平稳 MDP 中的中间 RL。尽管如此，我们首先在第 4.1 节中展示，然后在第 6 节中严格展示在分段固定 MDP 中简单地采用非平稳 MAB（Besbes 等人，2014；Cheung 等人，2019a；b）或 RL 的技术 (Jaksch et al., 2010) 到非平稳 MDP 中的 RL 可能会导致较差的动态后悔界限。
table1 固定和非固定在线学习设置的算法框架总结。
1.1 主要贡献总结
假设在 T 个时间步长期间，奖励和状态转换分布的总变化分别受变化预算 B r (> 0) 和 B p (> 0) 的限制（在适当的度量下），我们设计和分析非平稳 MDP 中 RL 的新算法。令 D max 、 S 和 A 分别是 MDP 中的最大直径（将在第 2 节中定义的复杂性度量）、状态数和动作数。我们的主要贡献是： • 我们开发了具有置信度扩展的滑动窗口 UCRL2 (SWUCRL2-CW) 算法。当。。。的时候！变化预算是已知的，我们“通过预算感知分析证明它达到了 Õ D max (B r + B p ) 1/4 S 2/3 A 1/2 T 3/4 动态后悔界。
• 我们提出了强盗强化学习 (BORL) 算法，该算法自适应地调整了 SWUCRL2-CW 算法，并保持不变！
" Õ D max (B r + B p ) 1/4 S 2/3 A 1/2 T 3/4 动态后悔界，不知道变化预算。
• 我们通过传统的乐观探索技术确定了非平稳 MDP 中 RL 面临的前所未有的挑战：用于非平稳在线学习的现有算法框架（包括分段平稳 MDP 中的非平稳老虎机和 RL）（Jaksch 等人，2010；Garivier & Moulines， 2011b; Cheung et al., 2019a）通常通过以“遗忘”方式对历史数据进行平均来估计未知参数，并相应地构建最紧密的置信区域/区间。然后他们在置信区域内乐观地搜索最有利的模型，并执行相应的最优策略。然而，我们首先在第 4.1 节中证明，然后在第 6 节中严格证明，在非平稳 MDP 中的 RL 的背景下，以这种方式构建的置信区域中的 MDP 诱导的直径可以急剧增长，并可能导致不利动态后悔界。我们通过置信扩大技术提出了更加乐观的新建议，从而克服了这一问题（或者，在当前论文的扩展版本 (Cheung et al., 2020a) 中，作者证明了人们可以利用特殊的在具有固定成本的单项库存控制背景下的状态转换分布结构，以绕过探索时变环境的困难）。表 1 中提供了固定和非固定在线学习设置的算法框架摘要。

2 问题描述

在本节中，我们介绍了整篇论文中使用的符号，并介绍了我们在非平稳 MDP 中的 RL 问题的学习协议。
2.1 符号
在整篇论文中，所有向量都是列向量，除非另有说明。我们将 [n] 定义为集合 {1, 2, . . . , n} 用于任何正整数 n。我们将 1[·] 表示为指示函数。对于 p – [1, Œ]，我们使用 ÎxÎ p 来表示向量 x – R d 的 p 范数。我们将 x ‚ y 和 x · y 分别表示为 x, y - R 之间的最大值和最小值。我们采用渐近符号 O(·)、(·) 和 (·) (Cormen et al., 2009)。当省略对数因子时，我们分别使用Õ(·)、_(·)、(·)。由于有些滥用，当我们试图避免显式写出常量的混乱时，会使用这些符号。
2.2 学习协议
模型原语： 非平稳 MDP 的实例由元组 (S, A, T, r, p) 指定。集合 S 是状态的有限集合。集合 A = {A s } s–S 包含每个状态 s – S 的有限动作集 A s。如果 s – S, a – A s ，我们说 (s, a) 是一个状态-动作对 q。我们表示 S = |S|，A = ( s–S |A s |)/S。我们将 T 表示为时间步的总数，并将 r = {r t } Tt=1 表示为平均奖励序列。对于每个 t，对于每个状态-动作对 (s, a)，我们有 r t = {r t (s, a)} s–S,a–A s 和 r t (s, a) – [0, 1]。此外，我们将 p = {p t } Tt=1 表示为状态转换分布的序列。对于每个 t，我们有 p t = {p t (·|s, a)} s–S,a–A s ，其中 p t (·|s, a) 是每个状态-动作对 (s, a) 在 S 上的概率分布。
外生性： r t 和 p t 的数量通常在不同的 t 中有所不同。在 (Besbes et al., 2014) 之后，我们根据各自的变化预算 B r 、B p (> 0) 来量化 r t 和 p t 的变化：
（1）
其中 B r,t = max s–S,a–A s |r t+1 (s, a) ≠ r t (s, a)| B p,t = max s–S,a–A s Îp t+1 (·|s, a) ≠ p t (·|s, a)Î 1 。我们强调尽管 B r 和 B p 可能被用作输入DM、个体 B r,t 和 B p,t 在当前论文中对 DM 是未知的。
内生性： DM 面对一个非平稳的 MDP 实例（S，A，T，r，p）。她知道 S、A、T，但不知道 r、p。
DM 从任意状态 s 1 – S 开始。在时间 t，三个事件发生。首先，DM 观察其当前状态 s t 。其次，她采取行动 a t – A s t 。第三，给定 s t , a t ，她随机转移到另一个状态 s t+1 ，其分布为 p t (·|s t , a t )，并获得随机奖励 R t (s t , a t )，它是 1-sub-Gaussian 平均 r t (s t , a t )。在第二种情况下，t 的选择基于非预期策略。也就是说，选择只取决于当前状态 s t 和之前的观察结果 H t≠1 := {s q , a q , R q (s q , a q )} t≠1 q=1 。
**动态遗憾：**尽管 r、p 和学习环境的动态存在模型不确定性，q DM 旨在最大化累积期望奖励 E[t=1 r t (s t , a t )]。为了衡量收敛到最优性，我们考虑最小化动态遗憾的等效目标（Besbes et al., 2014; Jaksch et al., 2010）
（2）
在 oracle t=1 fl ú t 中，和 f ú t 是具有状态转移分布 p t 和平均奖励 r t 的固定 MDP 的最佳长期平均奖励。可以通过求解第 A.1 节中提供的线性程序 (9) 来计算最佳 FL ú t。我们注意到，在分段平稳的 MDP 中，RL 使用了相同的预言机（Jaksch 等人，2010）。
备注 1. 当 S = 1 时，(2) 简化为非平稳 K 臂老虎机动态后悔的定义 (Besbes et al., 2014)。然而，q T 与老虎机的情况不同，离线基准 t=1 fl ú t 通常不等于非平稳 MDP 问题的预期最优值。我们证明我们在命题 1 中的选择是正确的。
接下来，我们回顾了沟通 MDP 和直径的概念，以规定一个确保可学习性并证明我们的离线基准的假设。
定义 1（（Jaksch 等人，2010）沟通 MDP 和直径）。考虑一组状态 S、一个集合 A = {A s } sœS 的动作集，以及一个转移核 p̄ = {p̄(·|s, a)} sœS,aœA s 。对于任意 s, s Õ – S 和固定策略 fi，fi 下从 s 到 s Õ 的命中时间是随机变量 (s Õ |fi, s) := min {t : s t+1 = s Õ , s 1 = s, s · +1 ≥ p̄(·|s · , fi(s · )) '· } ，可以是无限的。我们说 (S, A, p̄) 是一个通信 MDP iff
（）
是有限的。量 D 是与 (S, A, p̄) 相关的直径。
我们自始至终做出以下假设。
假设 1. 对于每个 t – {1, . . . , T }，元组 (S, A, p t ) 构成了一个直径最大为 D t 的通信 MDP。我们将最大直径表示为 D max = max tœ{1,…,T } D t 。
命题 1. 考虑一个实例 (S, A, T, p, r)，它满足假设 1 的最大直径 D max ，并且分别具有奖励和转换内核的变化预算 B r 、 B p 。此外，假设 T Ø B r + Ó 2D > 0. ÈÔ 它认为 max B p Ëq q T T ú ≠ 4(D max + E t=1 FL t Ø max t=1 r t (s t , a t )  1) (B r + 2D 最大 B p )T 。最大值将取代所有非预期策略。我们将 {(s t , a t )} Tt=1 表示为 policy 下的轨迹，其中 a t – A s t 由 H t≠1 fi {s t } 确定，并且 s t+1 ≥ p t (·|s t , a t ) 对于每个 t。
该命题在完整版的 A.2 节中得到证明（Cheung et al., 2020b）。事实上，我们的动态后悔  界限大于误差项 4(D max + 1) (B r + 2D max B p )T ，因此证明选择 q T fl ú t 作为离线基准是合理的。离线基准 q t=1 T ú t=1 FL t 比预期最优更便于分析，因为前者可以分解为跨不同区间的求和，而后者的求和是交织在一起的（因为 s t+1 ≥ p t (·|s t , a t ))。

3 相关工作

3.1 平稳MDP的强化学习
固定式（折扣和未折扣奖励）MDP 中的强化学习已在 (Burnetas & Katehakis, 1997; Bartlett & Tewari, 2009; Jaksch et al., 2010; Agrawal & Jia, 2017; Fruit et al., 2018a; b; Sidford et al., 2018b;a; Wang, 2019; Zhang & Ji, 2019; Fruit et al., 2019; Wei et al., 2019)。对于折扣奖励设置，（Sidford 等人，2018b；Wang，2019；Sidford 等人，2018a）的作者在样本复杂度方面提出了（几乎）最优算法。对于未折扣的奖励设置，(Jaksch et al., 2010) 的作者在奖励和状态转换分布都是时不变的情况下建立了一个关于遗憾的极小极大下界 Ô (D max SAT)。他们还设计了 UCRL2 算法并表明它达到了 Ô 遗憾界 Õ(D max S AT )。 (Fruit et al., 2019)的作者提出了UCRL2B算法，它是UCRL2算法的改进版本。
UCRL2B 算法的遗憾界 Ô 2 是 Õ(S D max AT +D max S 2 A)。
(Zhang & Ji, 2019) 中提供了极小极大优化算法，尽管它的计算效率不高。
3.2 非平稳MDP的强化学习
在一项平行工作中（Ortner 等人，2019 年），作者考虑了与我们相似的设置，通过应用来自非平稳老虎机设置（Garivier & Moulines，2011b；Cheung 等人，2019b）的“遗忘原理”来设计一种学习算法。为了实现其动态后悔界限，(Ortner et al., 2019) 的算法将整个时间范围 [T] 划分为时间间隔 I = {I k } K ，关键是 k=1 q max I k ≠1 q max I k ≠1 需要访问 t=min I k B r,t 和 t=min I k B p,t ，即每个区间 I k – I 的奖励和状态转移分布的变化（见定理 3 在（Ortner 等人，2019））。相比之下，SWUCRL2-CW 算法和 BORL 算法需要的变化信息要少得多。具体来说，SWUCRL2-CW 算法不需要任何关于变化的额外知识，除了 B r 和 B p ，即在等式中定义的整个时间范围内的变化预算。 (1)，实现其动态后悔界(见定理1)。这类似于非平稳老虎机设置的算法，只需要访问 B r (Besbes et al., 2014)。更重要的是，BORL 算法（基于 SWUCRL2-CW 算法）即使不知道 B r 或 B p 也具有相同的动态后悔界（参见定理 2）。
也存在一些与我们的设置密切相关但又不同的设置（在外生性和反馈方面）。 (Jaksch et al., 2010; Gajane et al., 2018) 提出了分段平稳 MDP 设置中 RL 的解决方案。但如前所述，简单地将他们的技术应用于非平稳 MDP 中的一般 RL 可能会导致不希望的动态后悔界限（有关更多详细信息，请参见第 6 节）。在（Yu 等人，2009；Neu 等人，2010；Arora 等人，2012；Dick 等人，2014；Jin 等人，2019；Cardoso 等人，2019）中，作者认为 RL 在具有不断变化的奖励分布但固定转换分布的 MDP。 (Even-Dar et al., 2005; Yu & Mannor, 2009; Neu et al., 2012; Abbasi-Yadkori et al., 2013; Rosenberg & Mansour, 2019; Li et al., 2019) 的作者认为 RL 在具有完整信息反馈的非平稳 MDP 中。
3.3 非平稳MAB
对于只有一种状态的在线学习和老虎机问题，(Auer et al., 2002b; Garivier & Moulines, 2011b; Besbes et al., 2014; Keskin & Zeevi, 2016) 提出了几种“遗忘”策略不同的非平稳 MAB 设置。最近，(Karnin & Anava, 2016; Luo et al., 2018; Cheung et al., 2019a;b; Chen et al., 2019b) 的作品为非平稳 MAB 问题设计了无参数算法。另一个相关但不同的设置是 Markovian bandit (Kim & Lim, 2016; Ma, 2018)，其中所选动作的状态根据独立的时不变马尔可夫链演变，而其余动作的状态保持不变了。在（Zhou et al., 2020）中，作者还考虑了所有动作的状态都由相同的（不可控的）马尔可夫链控制的情况。

4 置信度扩大的滑动窗口 UCRL2

在本节中，我们将介绍 SWUCRL2-CW 算法，该算法将滑动窗口估计 (Garivier & Moulines, 2011a) 和一种新颖的置信扩展技术融入 UCRL2 (Jaksch et al., 2010)。
4.1 设计挑战：朴素滑动窗口 UCRL2 算法的失败
对于静止的 MAB 问题，UCB 算法 (Auer et al., 2002a) 建议 DM 应该在每个时间步迭代执行以下两个步骤： 1. 通过取所有观察到的样本的时间平均值来估计每个动作的平均奖励。
2. 选择具有最高估计平均奖励加上置信半径的动作，其中半径与观察次数成反比（Auer 等，2002a）。
UCB 算法已被证明可以为各种固定 MAB 设置获得最佳后悔界限（Auer 等人，2002a；Kveton 等人，2015）。对于非平稳问题，(Garivier & Moulines, 2011b; Keskin & Zeevi, 2016; Cheung et al., 2019b) 表明，DM 可以通过结合滑动窗口估计器进一步利用遗忘原理 (Garivier & Moulines, 2011b) 进入 UCB 算法 (Auer et al., 2002a; Kveton et al., 2015) 以实现各种非平稳 MAB 设置的最佳动态后悔界限。窗口大小为 W – R + 的滑动窗口 UCB 算法与 UCB 算法相似，只是估计的平均奖励是通过取 W 个最近观察到的样本的时间平均值来计算的。
如第 1 节所述，(Jaksch et al., 2010) 提出了 UCRL2 算法，这是一种类似于 UCB 的算法，在静止 MDP 中对 RL 具有几乎最优的遗憾。因此，人们很容易想到，也可以将遗忘原理集成到 UCRL2 算法中，以在非平稳 MDP 中实现 RL 的低动态后悔界。特别是，人们可以很容易地设计一种简单的滑动窗口 UCRL2 算法，该算法遵循与 UCRL2 算法完全相同的步骤，除了它仅使用 W 最近观察到的样本而不是所有观察到的样本来估计平均奖励和状态过渡分布，并计算各自的置信半径。
然而，在非平稳性和老虎机反馈下，我们在即将到来的第 6 节的命题 3 中表明，由窗口大小为 W 的朴素滑动窗口 UCRL2 算法产生的估计 MDP 的直径可以与 (W) 一样大，这比 D max 大几个数量级，D max 是 DM 遇到的每个单独 MDP 的最大直径。因此，朴素的滑动窗口 UCRL2 算法可能会导致不希望的动态后悔界。在下文中，我们将更详细地讨论我们新颖的置信扩展技术如何缓解这个问题。
4.2 算法概述
SWUCRL2-CW 算法首先指定滑动窗口参数 W – N 和置信扩展参数 ÷ Ø 0。参数 W 指定要查看的先前时间步数。在使用置信上限的传统乐观探索之上，参数 ÷ 量化了额外乐观探索的数量。事实证明，前者对于处理转换内核的漂移非平稳性是必要的。
该算法在划分 T 个时间步的一系列情节中运行。第 m 集从时间 · (m) 开始（特别是 · (1) = 1），并在时间结束时结束 · (m + 1) ≠ 1。
在整个情节 m 中，DM 遵循某个固定策略 fĩ m 。如果满足以下两个标准中的至少一个，则 DM 停止第 m 集： • 时间索引 t 是 W 的倍数。因此，每个集最多持续 W 个时间步长。该准则确保 DM 足够频繁地切换平稳策略 fĩ m，以适应 r t 和 p t 的非平稳性。
• 存在一些状态-动作对 (s, a) 使得 ‹ m (s, a)，即在第 m 集内 (s t , a t ) = (s, a) 的时间步 t 的数量至少是一样多作为它在· (m) 之前的 W 个时间步内的计数总数，即从 (· (m) ≠ W) ‚ 1 到 (· (m) ≠ 1)。这类似于 (Jaksch et al., 2010) 中的加倍标准，它确保每一集足够长，以便 DM 可以专注于学习。
这两个标准的综合效果使 DM 能够从适当大小的时间窗口中学习具有历史数据的低动态后悔策略。一个重要的组成部分是每个情节 m 的策略 fĩ m 的构建。为了允许在非平稳性下学习，SWUCRL2-CW 算法根据当前情节 m 之前 W 个时间步的历史计算策略 fĩ m，即从轮 (· (m)≠W )‚1 到轮 · (m)≠ 1. fĩ m 的构造涉及扩展值迭代 (EVI) (Jaksch et al., 2010)，它需要置信区域 H r,· (m) , H p,· (m) ( ÷) 用于奖励和转换内核作为输入，此外还有一个精度参数 '。置信扩展参数÷Ø0能够确保EVI输出的MDP具有大部分时间是有界的直径。
4.3 策略构造
为了描述 SWUCRL2-CW 算法，我们为第 m 集的每个状态动作对 (s, a) 和每一轮 t 定义，
（3）
4.3.1。奖励的信心区域。
对于第 m 集的每个状态动作对 (s, a) 和每个时间步 t，我们考虑经验均值估计量
（）
用于估计平均奖励
（）
置信区域 H r,t = {H r,t (s, a)} s–S,a–A s 定义为
（4）
置信半径
（）

4.3.2 增强过渡内核的信心。

对于第 m 集的每个状态动作对 s、a 和每个时间步 t，考虑经验估计器
（）
用于估计平均转移概率
（）
与估计reward的情况不同，置信区域H p,t (÷) = {H p,t (s, a; ÷)} s–S,a–A s 为转移概率涉及一个加宽参数÷Ø 0：
（5）
置信半径
（）
简而言之，÷ > 0 的加入提供了额外的乐观来源，DM 可以探索进一步偏离样本平均值的转换内核。事实证明，这对于在漂移的非平稳性下学习 MDP 至关重要。我们目前将 ÷ 视为超参数，并在讨论主要结果时提供 ÷ 的合适选择。
4.3.3 扩展价值 I TERATION (EVI)（J AKSCH 等人，2010 年）。
SWUCRL2-CW 算法依赖于 EVI，它通过对接近最优的乐观探索来解决 MDP。
我们在完整版的第 A.3 节中提取并改写了 EVI 的描述（Cheung 等人，2020b）。 EVI 为奖励和转换内核输入置信区域 Hr、Hp。该算法输出一个“乐观 MDP 模型”，它由奖励向量 r̃ 和转换核 p̃ 组成，在该模型下，最优平均增益 f̃ 是所有 ṙ – H r , ṗ – H p 中最大的： • 输入：置信区域 H r for r，H p 代表 p，误差参数 ’ > 0。
• 输出：返回的策略fĩ 和辅助输出（r̃, p̃, f̃, “~ ）。在后者中，r̃、p̃和f̃是选择的“乐观”奖励向量、转换核和对应的长期平均奖励。输出“~ – RØ0”是一个偏置向量（Jaksch et al., 2010）。对于每个 s – S，数量“~ (s) 表示当 DM 从状态 s 开始并遵循最优策略时的短期奖励。
根据 EVI 的设计，对于输出“ ∼ ，存在 s – S 使得“ ∼ (s) = 0。总之，我们表示
()
结合这三个组件，SWUCRL2-CW 算法的正式描述如算法 1 所示。
Alogrithm 1
4.4 业绩分析：更加乐观的祝福
我们现在分析 SWUCRL2-CW 算法的性能。首先，我们引入两个事件 E r ， E p ，它们表明估计的奖励和转换内核位于各自的置信区域中。
()
我们证明 E r , E p 以高概率成立。
引理 1. 我们有 Pr[E r ] Ø 1 ≠ ”/2，Pr[E p ] Ø 1 ≠ ”/2。
完整版本的 B 部分提供了证明（Cheung 等人，2020b）。在定义 E p 时，扩展参数÷ 设置为 0，因为我们只关心 p 上的估计误差。接下来，在对 H p,t (÷) 的某些假设下，我们限制了每个时间步的动态后悔。为了方便我们的讨论，我们为第 m 集的每个 t 定义以下变化度量：
()
**命题 2。**考虑一个情节 m。以事件 E r , E p 为条件，假设存在一个满足两个性质的转移核 p： (1) 's – S 'a – A s ，我们有 p(·|s, a) – H p,· (m) (s, a; ÷)，和 (2) (S, A, p) 的直径至多为 D。那么，对于每个 t – {· (m), . . . , · (m + 1) ≠ 1} 在第 m 集，我们有
(6)
(7)
完整的证明在完整版的 C 部分（Cheung et al., 2020b）。与引理 1 不同，参数 ÷ 在命题中起着重要作用。随着 ÷ 的增加，置信区域 H p,· (m) (s, a; ÷) 对于每个 s, a 都变得更大，并且预期的假设直径 D 会减小。
我们随后的分析表明 ÷ 可以适当地校准，使得 D = O(D max )。接下来，我们陈述我们的第一个主要结果，它提供了一个动态后悔界限，假设 B r , B p 的知识设置为 W, ÷：
定理 1. 假设 S > 1，SWUCRL2-CW 算法具有窗口大小 W 和置信扩展参数 ÷ > 0 满足动态后悔界
(8)
证明草图。 完整的证明在完整版本的 D 部分（Cheung 等人，2020b）中提供。命题 2 指出，如果置信区域 H p,· (m) (÷) 包含一个转换内核，该内核会诱导具有有界直径 D 的 MDP，则提供 H p,· (m) (÷) 的 EVI 可以返回一个策略可控动态后悔界。然而，正如我们在第 6 节中所展示的，一般人不能期望这会发生。然而，我们用我们新颖的信心扩大技术和预算意识分析绕过了这一点。我们考虑每集 m 的第一个时间步长 · (m)：如果 p · (m) (·|s, a) – H p,· (m) (s, a; ÷) 对于所有 (s, a) ，则可以利用命题 2；否则，扩大的置信区域会强制消耗大量的变化预算。
备注 2. 当 S = {s} 时，我们的问题变成了 (Besbes et al., 2014) 研究的非平稳老虎机问题，我们有 D max = 0 和 B p = 0。通过 choos2/3 ing W = W ú = A 1/3 T 2/3 /B r ，我们的算法有 dy1/3 1/3 2/3 纳米遗憾 Õ(B r A T )，匹配由 (Besbes et al., 2014) 当 B r – [A ≠1 , A ≠1 T ]。
备注 3. 与 (Cheung et al., 2019b) 类似，如果 B p , B r 未知，我们  可以不经意地设置 W 和 ÷ 为 W = 2 1 1 2 1 1 S 3 A 2 T 2 , ÷ = W/T = S 3 A 2 T ≠ 2 以获得 2 dy-

5 Bandit-over-Reinforcement Learning：走向无参数

如备注 3 所述，在 B r 和 B p 未知的情况下，SWUCRL2-CW 算法的动态遗憾在 B r 和 B p 中线性缩放，当 B r 或 B p = (T 1/4)。相比之下，定理 1 向我们保证，通过使用 (W ú , ÷ ú )，我们可以实现 o(T )当 B r , B p = o(T ) 时的动态后悔。对于 bandit 设置，（Cheung 等人，2019b）提出了 bandit-over-bandit 框架，该框架使用 EXP3 算法的单独副本来调整窗口长度。受此启发，我们开发了一种新颖的 Bandit-over-Reinforcement Learning (BORL) 算法，该算法是无参数的，并且具有等于 (8) 的动态后悔界限。继 (Cheung et al., 2019b) 之后，我们将 SWUCRL2-CW 算法视为一个子程序，并“对冲” (Bubeck & Cesa-Bianchi, 2012) 对抗 r t 's 和 p t ’ 的（可能是对抗性的）变化 s 确定一个合理的固定窗口长度和置信度扩展参数。如图1所示,BORL算法将整个时间范围划分为等长H轮的ÁT/HË块（最后一个块的长度可以ÆH），并指定一个集合J，从中抽取每一对（窗口长度，置信度扩大参数）从。对于每个块 i – [ÁT /HË]，BORL 算法首先调用一些主算法来选择一对（窗口长度，置信扩展参数）（W i , ÷ i ） – J，然后重新启动 SWUCRL2-CW 算法选择的参数作为一个子程序来选择这个块的动作。之后，区块 i 的总奖励会反馈给主节点，这些参数的“后验”也会相应更新。
强盗设置中没有提出的一个直接挑战（Cheung 等人，2019b）是每个块的起始状态由 DM 先前的移动决定。因此，主算法不会像 (Cheung et al., 2019b) 那样面临简单的遗忘环境，我们不能使用 EXP3 (Auer et al., 2002b) 算法作为主算法。
然而，在块开始之前观察状态。因此，我们使用多臂老虎机的 EXP3.P 算法对抗自适应对手（Auer 等人，2002b）作为主算法。由于其与 BOB 算法（Cheung et al., 2019b）的相似性，我们将 BORL 算法的设计细节和动态后悔界限的证明推迟到完整版的 E 和 F 部分（Cheung et al., 2020b），分别。
定理 2. 假设 S > 1，概率 1 ≠ O(”)，BORL 算法的动态后悔界为 1 2 1 3 Õ(D max (B r + B p + 1) 4 S 3 A 2 T 4 ）。

6 学习马尔可夫决策过程中漂移的危险

在随机在线学习问题中，即使样本分布随时间变化，通常也通过取观察样本的时间平均值来估计潜在量。这已被证明在固定和非固定老虎机设置中运行良好（Auer 等人，2002a；Garivier & Moulines，2011b；Cheung 等人，2019b；a）。扩展到 RL，很自然地考虑样本平均转移分布 p̂ t ，它使用前 W 轮中的数据来估计时间平均值  转移分布 p̄ t 到一个加性误差 Õ(1/ N t + ( s, a))（见引理 1）。
在静止 MDP 的情况下，其中 ’ t – [T ] p t = p，有 p̄ t = p。因此，未加宽的置信区域 H p,t (0) 以高概率包含 p（参见引理 1）。
因此，(Jaksch et al., 2010) 的 UCRL2 算法乐观地探索了 H p,t (0)，但遗憾的是，它与 p 的直径成线性关系。
(Jaksch et al., 2010; Gajane et al., 2018) 将乐观探索 H p,t (0) 的方法进一步扩展到分段平稳 MDP 中的 RL。后者建立了一个 2/3 O(¸ 1/3 D max S 2/3 A 1/3 T 2/3 ) 动态后悔界限，当最多有¸ 变化时。他们的分析涉及将 T 轮视界划分为 C·T 1/3 等长区间，其中 C 是一个常数，取决于 D max 、S、A、¸。至少 CT 1/3 ≠¸ 区间享受静止环境，并且在这些区间中乐观地探索 H p,t (0) 会产生与 D max 成线性比例的动态遗憾界限。将剩余间隔的动态遗憾限制在它们的长度上并调整 C 会产生所需的界限。
与固定和分段固定设置相比，对 H p,t (0) 的乐观探索可能会导致非固定 MDP 中的不利动态后悔界限。在 p t≠W 的非平稳环境中， . . . , p t≠1 通常是不同的，我们表明不可能根据 p t≠W 的最大直径来限制 p̄ t 的直径。 . . , p t≠1 。更一般地，我们不仅为 p̄ t 证明了前面的主张，而且还证明了以下命题中的每个 p̃ – H p,t (0)。该命题展示了探索分段平稳 MDP 中不存在的非平稳 MDP 的独特挑战，并激发了我们的置信度扩大 ÷ > 0 的概念。为了简化符号，我们在不失一般性的情况下设置 t = W + 1 .
命题 3. 存在一系列非平稳 MDP 转换分布 p 1 , . . . , p W 使得 1) (S, A, p n ) 的直径对于每个 n – [W] 为 1。 2) 状态转换分布的总变化为 O(1)。然而，在某些确定性策略下， • 经验 MDP (S, A, p̂ W +1 ) 具有直径 (W ) • 此外，对于每个  p̃ – H p,W +1 (0)，MDP (S, A , p̃) 具有直径 ( W/ log W )
证明。 序列 p 1 , . . . , p W 在以下 2 个实例 p 1 , p 2 之间交替。现在，定义公共状态空间 S = {1, 2} 和动作集合 A = {A 1 , A 2 }，其中 A 1 = {a 1 , a 2 }, {A 2 } = {b 1 , b 2 }。我们假设所有状态转换都是确定性的，图 2 中显示了图形说明。显然，我们看到两个实例的直径均为 1。
firgure 2
现在，考虑以下两个确定性和固定策略 fi 1 和 fi 2 ： fi 1 (1) = a 1 , fi 1 (2) = b 2 , fi 2 (1) = a 2 , fi 2 (2) = b 1. 由于 MDP 是确定性的，因此我们有 p̂ W +1 = p̄ W +1 。
在下文中，我们构建了一个轨迹，其中 DM 在时间 {1, . . . , W } 而底层转换内核在 p 1 , p 2 之间交替。在构造中，无论她采取什么行动 a 1 、 a 2 （或 b 1 、 b 2 ），DM 几乎总是在整个视界处于状态 1（或 2）的自循环中。因此，它会欺骗 DM 认为 p̂ W +1 (1|1, a i ) ¥ 1 对于每个 i – {1, 2}，同样 p̂ W +1 (2|2, b i ) ¥ 1 对于每个 i – {1, 2}。总之，这将导致 DM 得出结论，即 (S, A, p̂ W +1 ) 构成一个大直径 MDP，因为从状态 1 转换到 2（和 2 到 1）的概率接近于 0。
施工详述如下。令 W = 4· 。此外，让状态转移核为 p 1 从时间 1 到 · 以及从时间步 2 · + 1 到 3 · 并且对于剩余的时间步为 p 2。 DM 从状态 1 开始。她从时间 1 到时间 2·遵循策略 fi 1，从 2·+1 到 4·遵循策略 fi 2。在指定的实例和策略下，可以很容易地验证 DM 采取了 • • • • 动作 a 1 从时间 1 到 · + 1，动作 b 2 从时间 · + 2 到 2·，动作 b 1 从时间 2· + 1 到 3· + 1，从时间 3· + 2 到 4· 行动 a 2。
结果，DM从时间1到·+1、时间3·+2到4·处于状态1；当她从时间·+2 到 3·+1 处于状态 2 时，如图 3 所示。我们有：
()
figure 3
最后，对于置信区域 H p,W +1 (0) = {H p,W +1 (s, a; 0)} s,a 构造没有置信扩展，对于任何 p̃ – H p,W +1 ( 0) 我们有 p̃(2|1, a 1 ) = 1Ò 2 log W p̃(1|2, b 1 ) = O 和 p̃(2|1, a 2 ) = p̃(1|2, b 2 ) = · +1 1Ò 2 log W O 分别，因为随机置信度 · ≠1 1Ò 2 1Ò 2 log W log W 半径和主导样本 · +1 · ≠1 1 均值 · +1 和 0。因此，对于任何 p̃ – H p,W +1 (0), (S, A, p̃) 构造的MDP 1×2 的直径至少为W log W 。
备注 4. 检查 MDP 设置中随机 MAB 和 RL 的流行 OFU 引导方法（Auer 等，2002a；Abbasi-Yadkori 等，2011；Jaksch 等，2010；Bubeck & Cesa-Bianchi，2012；Lattimore & Szepesvári, 2018），人们通常得出结论，更严格的置信区域设计会导致更低的（动态）遗憾界限。
在 (Abernethy et al., 2016) 中，这种见解已通过潜在的函数类型参数在随机 K 臂老虎机设置中形式化。然而，命题 3（连同定理 1）表明，在学习算法设计中使用最紧密的置信区域可能不足以确保 RL 在非平稳 MDP 中的动态后悔界较低。

7 结论

在本文中，我们研究了非平稳强化学习的问题，其中只要总变化分别受到一些变化预算的限制，未知的奖励和状态转移分布就会不时变化。我们首先将滑动窗口估计器和新颖的置信扩展技术结合到 UCRL2 算法中，以提出在已知变化预算时具有低动态后悔的 SWUCRL2-CW 算法。然后，我们设计了无参数 BORL 算法，它允许我们在不知道变化预算的情况下享受这种动态后悔界。所提出算法的主要成分是新颖的置信扩展技术，它为学习算法的设计注入了额外的乐观情绪。这与普遍认为的（固定和非固定）随机在线学习设置的乐观探索算法应该采用尽可能低的乐观水平形成鲜明对比。