Non-Stationary Reinforcement Learning: The Blessing of (More) Optimism-CSDN博客

本文链接：https://blog.csdn.net/weixin_43889128/article/details/125332126

作者：王志祥 David Simchi-Levi RuihaoZhu

摘要

我们在时间漂移下考虑马尔可夫决策过程（MDP）中的未折现强化学习（RL），即奖励和状态转换分布都允许随着时间的推移而演变，只要它们各自的总变化通过合适的指标量化，不要超过某些变化预算。该设置捕捉顺序决策场景中的内生性、外生性、不确定性和部分反馈，并在各种在线市场、流行病控制和交通运输中找到应用。我们首先开发了带有置信度扩展的强化学习的滑动窗口上置信界 (SWUCRL2-CW) 算法，并在已知变化预算时建立其动态后悔界。此外，我们提出了 Bandit-over-Reinforcement Learning (BORL) 算法来自适应调整 SWUCRL2-CW 算法以实现相同的动态后悔界限，但以无参数方式，即不知道变化预算。最后，我们进行了数值实验，以表明我们提出的算法与现有算法相比具有优越的经验性能。
值得注意的是，内生性和外生性之间的相互作用提出了一个独特的挑战，在现有的（固定和非固定的）随机在线学习设置中，当人们应用传统的面对不确定性（OFU）原则来设计具有可证明的低动态后悔的算法时用于非平稳 MDP 中的 RL。我们通过一种新颖的置信扩展技术克服了这一挑战，该技术将额外的乐观融入到我们的学习算法中，以确保低动态后悔范围。为了扩展我们的理论发现，我们展示了在具有固定成本的单件库存控制的背景下，人们如何利用状态转换分布上的特殊结构来绕过探索时变环境的困难。
关键词 : 强化学习, 数据驱动决策, 收益管理, 信心扩大

1 引言

考虑一个通用的顺序决策框架，其中决策者 (DM) 迭代地与最初未知的环境交互。在每个时间步，DM 首先观察环境的当前状态，然后选择一个可用的动作。之后，她收到一个瞬时随机奖励，环境转换到下一个状态。 DM 旨在设计一个最大化其累积奖励的策略，同时面临以下挑战： • 内生性：在每个时间步，奖励遵循奖励分布，随后的状态遵循状态转换分布。两种分布都（仅）取决于受政策影响的当前状态和行动。因此，环境可以完全由离散时间马尔可夫决策过程（MDP）来表征。
• 外生性： 奖励和状态转换分布随时间步长变化（独立于策略），但总变化受各自变化预算的限制。
• 不确定性： DM 最初不知道奖励和状态转换分布。
• Bandit/Partial Feedback： DM 只能在每个时间步观察当前状态和动作所导致的奖励和状态转换。

1.1 动机示例
事实证明，该框架可以捕获许多应用，例如二手车销售中的车辆再营销和广告（广告）拍卖中的实时竞价。
示例 1（二手车销售中的车辆再营销）。一家汽车公司通过每日批发车辆拍卖（Manheim 2020，Vehicle Remarketing 2020）处理不断到达的停租车辆（即已达到固定期限的租赁车辆）。
在每次拍卖开始时，公司观察现有车辆的数量（“状态”），并决定要上市的停租车辆的数量（“行动”）。然后，汽车经销商通过第一价格拍卖竞标购买。车辆的销售给公司带来收入，而未售出的车辆给公司带来了持有成本（“奖励”和“状态转换”）。该公司旨在通过设计一项动态决定每次拍卖中列出的车辆的政策来最大化利润。然而，除了公司的决策（即上市车辆）之外，经销商的投标行为还受到许多不可预测的（因此是外生的）因素（例如，实时客户需求、车辆折旧和经销商间竞争）的影响。 , 并且可以随时间变化。
示例 2（广告拍卖中的实时出价）。广告商通过实时在线拍卖反复竞争广告展示展示次数（Google 2011、Cai 等人 2017、Flajolet 和 Jaillet 2017、Balseiro 和 Gur 2019、Guo 等人 2019）。每个广告商都从预算开始。用户到达后，会产生一次展示，广告商根据她的剩余预算（“状态”）为其提交出价（“行动”）。获胜的广告商获得展示以向用户展示她的广告，并观察用户的点击或未点击行为（“奖励”）。对于赢得的每个广告位，广告商必须使用她支付（由拍卖机制确定）剩余预算，并且定期重新填写预算（“状态转换”）。每个广告商都希望根据自己的（不断发展的）预算约束最大化其广告的点击次数。然而，每次拍卖的竞争力表现出外生性，因为参与的广告商和到达的用户有时会有所不同。此外，由于内生原因，广告的受欢迎程度可能会发生变化。例如，在短时间内过于频繁地展示同一广告可能会降低其新鲜度，并导致点击次数暂时降低（即，我们可以将剩余预算和广告展示次数结合起来）给定的窗口大小进入 MDP 的状态以模拟内生动力学）。
此外，该框架可用于对交通（Zhang and Wang 2018，Qin et al. 2019）、无线网络（Zhou and Bambos 2015，Zhou et al. 2016）、消费者选择建模（Xu and Yun 2020），医疗保健业务（Shortreed et al.
2010)、流行病控制 (Nowzari et al. 2016, Kiss et al. 2017) 和库存控制 (Huh and Rusmevichientong 2009, Bertsekas 2017, Zhang et al. 2018, Agrawal and Jia 2019, Chen et al.
2019a)。
1.2 顺序决策的不同场景
在顺序决策中存在许多工作，它们考虑了四个挑战的一部分（请参见表 1 的总结和比较）。关于随机多臂老虎机 (MAB) 的传统研究流 (Auer et al. 2002b, Bubeck and Cesa-Bianchi 2012, Lattimore and Szepesvári 2018) 侧重于不确定性和老虎机反馈之间的相互作用（即挑战 3 和 4） , 和 (Auer et al. 2002b) 提出了经典的上置信界限 (UCB) 算法。从 (Burnetas and Katehakis 1997, Tewari and Bartlett 2008, Jaksch et al. 2010) 开始，大量著作（参见第 3 节）致力于 MDP 中的强化学习 (RL) (Sutton and Barto 2018)，其中进一步涉及内生性。 MDP 中的 RL 包含挑战 1、3、4，而随机 MAB 是 MDP 只有一个状态时的特例。在没有外生性的情况下，奖励和状态转换分布在时间上是不变的，这三个挑战可以通过强化学习的上置信界限 (UCRL2) 算法共同解决 (Jaksch et al. 2010)。
UCB 和 UCRL2 算法利用面对不确定性的乐观 (OFU) 原则，根据历史数据的整个集合迭代地选择操作。然而，当外生性出现时，两种算法都会迅速恶化，因为环境会随着时间而变化，并且历史数据会变得过时。为了解决外生性的挑战，（Garivier 和 Moulines 2011）考虑了分段固定 MAB 环境，其中奖励分布在特定时间段内保持不变，并在未知时间步长处发生变化。后来有一行由 (Besbes et al. 2014) 发起的研究一般非平稳 MAB 环境 (Besbes et al. 2014, Cheung et al. 2019b,a)，其中奖励分布可以随时间任意变化，但总变化（通过合适的指标量化）的上限是变化预算（Besbes et al. 2014）。目的是最小化动态遗憾，即与最优动作序列的累积奖励相比的最优差距。（相对限制性）分段平稳 MAB 和一般非平稳 MAB 设置都考虑了外生性、不确定性和部分反馈的挑战（即挑战 2、3、4），但不存在内生性（挑战 1）。
在本文中，为了解决上述所有四个挑战，我们在非平稳 MDP 中考虑 RL，其中机器人的奖励和状态转换分布可以随时间变化，但总变化（通过合适的指标量化）由各自的上限变化预算。
我们注意到，在 (Jaksch et al. 2010) 中，作者还考虑了分段平稳 MDP 中的中间 RL。尽管如此，我们首先在第 4.1 节中展示，然后在第 6 节中严格展示在分段固定 MDP (Jaksch et al. 2010) 到非平稳 MDP 中的 RL 可能会导致较差的动态后悔界限。
table1 不同顺序决策方法总结。只有非稳态MDP解决所有挑战
1.3 主要贡献总结
假设在 T 个时间步长期间，奖励和状态转换分布的总变化分别受变化预算 B r (> 0) 和 B p (> 0) 的限制（在适当的度量下），我们设计和分析非平稳 MDP 中 RL 的新算法。令 D max 、 S 和 A 分别是 MDP 中的最大直径（将在第 2 节中定义的复杂性度量）、状态数和动作数。我们的主要贡献是： • 我们开发了具有置信度扩展的滑动窗口 UCRL2 (SWUCRL2-CW) 算法。
当变化预算已知时，我们通过预算感知分析证明它达到了 Õ D max (B r + B p ) 1/4 S 2/3 A 1/2 T 3/4 动态后悔界。
• 我们提出了强盗强化学习 (BORL) 算法，它自适应地调整 SWUCRL2-CW 算法，并保持相同的 Õ D max (B r + B p ) 1/4 S 2/3 A 1/2 T 3/4 动态后悔界限，不知道变化预算。
• 我们通过传统的乐观探索技术确定了非平稳 MDP 中 RL 面临的前所未有的挑战：用于非平稳在线学习的现有算法框架（包括分段平稳 MDP 中的非平稳 bandit 和 RL）（Jaksch 等人，2010，Garivier and Moulines 2011, Cheung et al. 2019b) 通常通过以“遗忘”方式对历史数据进行平均来估计未知参数，并相应地构建最紧密的置信区域/区间。然后他们在置信区域内乐观地搜索最有利的模型，并执行相应的最优策略。然而，我们首先在第 4.1 节中证明，然后在第 6 节中严格证明，在非平稳 MDP 中的 RL 的背景下，以这种方式构建的置信区域中的 MDP 诱导的直径可以急剧增长，并可能导致不利动态后悔界。我们通过信心扩大技术提出了额外乐观的新建议来克服这个问题。
表 2 提供了固定和非固定在线学习设置的算法框架摘要。
table2 稳态和非稳态在线学习算法总结
• 作为对这一发现的补充，假设对于任何一对初始状态和目标状态，总是存在一个动作，使得通过采取该动作从初始状态转换到目标状态的概率在整个时间内均匀地处于下界在不扩大置信区域的情况下，DM 可以实现低动态后悔。我们证明，在具有固定成本的单项库存控制的背景下（Yuan 等人，2019 年），需求分布的温和条件足以使这一额外假设成立。
1.4 论文结构
本文的其余部分组织如下：在第 2 节中，我们描述了感兴趣的非平稳 MDP 模型。在第 3 节中，我们回顾了非平稳在线学习和强化学习的相关工作。在第 4 节中，我们介绍了 SWUCRL2-CW 算法，并分析了它在动态后悔方面的性能。在第 5 节中，我们设计了可以达到的 BORL 算法与 SWUCRL2-CW 算法相同的动态后悔界，但不知道总变化。
在第 6 节中，我们讨论了在漂移下为强化学习设计学习算法的挑战，并展示了新的置信扩展技术如何缓解这个问题。在第 7 节中，我们讨论了在不扩大库存控制问题的置信区域的情况下的替代方法。在第 8 节中，我们进行了数值实验，以展示我们算法的卓越经验性能。在第 9 节中，我们总结了我们的论文。

2 问题描述

在本节中，我们介绍了整篇论文中使用的符号，并介绍了我们在非平稳 MDP 中的 RL 问题的学习协议。
2.1符号
在整篇论文中，所有向量都是列向量，除非另有说明。我们将 [n] 定义为集合 { 1, 2, . . . , n } 对于任何正整数 n。我们将 1[·] 表示为指示函数。对于 p ∈ [1, ∞ ]，我们使用 k x k p 来表示向量 x ∈ R d 的 p 范数。我们将 x ∨ y 和 x ∧ y 分别表示为 x, y ∈ R 之间的最大值和最小值。我们采用渐近符号 O(··)、Ω(··) 和 Θ(··) (Cormen et al. 2009)。省略对数因子时，分别使用Õ(··)、Ω̃(··)、Θ̃(··)。由于有些滥用，当我们试图避免显式写出常量的混乱时，会使用这些符号。
2.2 学习协议