Non-Stationary Reinforcement Learning: The Blessing of (More) Optimism

作者:王志祥 David Simchi-Levi RuihaoZhu

摘要

我们在时间漂移下考虑马尔可夫决策过程(MDP)中的未折现强化学习(RL),即奖励和状态转换分布都允许随着时间的推移而演变,只要它们各自的总变化通过合适的指标量化, 不要超过某些变化预算。 该设置捕捉顺序决策场景中的内生性、外生性、不确定性和部分反馈,并在各种在线市场、流行病控制和交通运输中找到应用。 我们首先开发了带有置信度扩展的强化学习的滑动窗口上置信界 (SWUCRL2-CW) 算法,并在已知变化预算时建立其动态后悔界。 此外,我们提出了 Bandit-over-Reinforcement Learning (BORL) 算法来自适应调整 SWUCRL2-CW 算法以实现相同的动态后悔界限,但以无参数方式,即不知道变化预算。 最后,我们进行了数值实验,以表明我们提出的算法与现有算法相比具有优越的经验性能。
值得注意的是,内生性和外生性之间的相互作用提出了一个独特的挑战,在现有的(固定和非固定的)随机在线学习设置中,当人们应用传统的面对不确定性(OFU)原则来设计具有可证明的低动态后悔的算法时 用于非平稳 MDP 中的 RL。 我们通过一种新颖的置信扩展技术克服了这一挑战,该技术将额外的乐观融入到我们的学习算法中,以确保低动态后悔范围。 为了扩展我们的理论发现,我们展示了在具有固定成本的单件库存控制的背景下,人们如何利用状态转换分布上的特殊结构来绕过探索时变环境的困难。
关键词 : 强化学习, 数据驱动决策, 收益管理, 信心扩大

1 引言

考虑一个通用的顺序决策框架,其中决策者 (DM) 迭代地与最初未知的环境交互。 在每个时间步,DM 首先观察环境的当前状态,然后选择一个可用的动作。 之后,她收到一个瞬时随机奖励,环境转换到下一个状态。 DM 旨在设计一个最大化其累积奖励的策略,同时面临以下挑战: • 内生性:在每个时间步,奖励遵循奖励分布,随后的状态遵循状态转换分布。 两种分布都(仅)取决于受政策影响的当前状态和行动。 因此,环境可以完全由离散时间马尔可夫决策过程(MDP)来表征。
• 外生性: 奖励和状态转换分布随时间步长变化(独立于策略),但总变化受各自变化预算的限制。
• 不确定性: DM 最初不知道奖励和状态转换分布。
• Bandit/Partial Feedback: DM 只能在每个时间步观察当前状态和动作所导致的奖励和状态转换。

1.1 动机示例
事实证明,该框架可以捕获许多应用,例如二手车销售中的车辆再营销和广告(广告)拍卖中的实时竞价。
示例 1(二手车销售中的车辆再营销)。 一家汽车公司通过每日批发车辆拍卖(Manheim 2020,Vehicle Remarketing 2020)处理不断到达的停租车辆(即已达到固定期限的租赁车辆)。
在每次拍卖开始时,公司观察现有车辆的数量(“状态”),并决定要上市的停租车辆的数量(“行动”)。 然后,汽车经销商通过第一价格拍卖竞标购买。 车辆的销售给公司带来收入,而未售出的车辆给公司带来了持有成本(“奖励”和“状态转换”)。 该公司旨在通过设计一项动态决定每次拍卖中列出的车辆的政策来最大化利润。 然而,除了公司的决策(即上市车辆)之外,经销商的投标行为还受到许多不可预测的(因此是外生的)因素(例如,实时客户需求、车辆折旧和经销商间竞争)的影响。 , 并且可以随时间变化。
示例 2(广告拍卖中的实时出价)。 广告商通过实时在线拍卖反复竞争广告展示展示次数(Google 2011、Cai 等人 2017、Flajolet 和 Jaillet 2017、Balseiro 和 Gur 2019、Guo 等人 2019)。 每个广告商都从预算开始。 用户到达后,会产生一次展示,广告商根据她的剩余预算(“状态”)为其提交出价(“行动”)。 获胜的广告商获得展示以向用户展示她的广告,并观察用户的点击或未点击行为(“奖励”)。 对于赢得的每个广告位,广告商必须使用她支付(由拍卖机制确定)剩余预算,并且定期重新填写预算(“状态转换”)。 每个广告商都希望根据自己的(不断发展的)预算约束最大化其广告的点击次数。 然而,每次拍卖的竞争力表现出外生性,因为参与的广告商和到达的用户有时会有所不同。 此外,由于内生原因,广告的受欢迎程度可能会发生变化。 例如,在短时间内过于频繁地展示同一广告可能会降低其新鲜度,并导致点击次数暂时降低(即,我们可以将剩余预算和广告展示次数结合起来) 给定的窗口大小进入 MDP 的状态以模拟内生动力学)。
此外,该框架可用于对交通(Zhang and Wang 2018,Qin et al. 2019)、无线网络(Zhou and Bambos 2015,Zhou et al. 2016)、消费者选择建模(Xu and Yun 2020),医疗保健业务(Shortreed et al.
2010)、流行病控制 (Nowzari et al. 2016, Kiss et al. 2017) 和库存控制 (Huh and Rusmevichientong 2009, Bertsekas 2017, Zhang et al. 2018, Agrawal and Jia 2019, Chen et al.
2019a)。
1.2 顺序决策的不同场景
在顺序决策中存在许多工作,它们考虑了四个挑战的一部分(请参见表 1 的总结和比较)。 关于随机多臂老虎机 (MAB) 的传统研究流 (Auer et al. 2002b, Bubeck and Cesa-Bianchi 2012, Lattimore and Szepesvári 2018) 侧重于不确定性和老虎机反馈之间的相互作用(即挑战 3 和 4) , 和 (Auer et al. 2002b) 提出了经典的上置信界限 (UCB) 算法。 从 (Burnetas and Katehakis 1997, Tewari and Bartlett 2008, Jaksch et al. 2010) 开始,大量著作(参见第 3 节)致力于 MDP 中的强化学习 (RL) (Sutton and Barto 2018),其中进一步涉及 内生性。 MDP 中的 RL 包含挑战 1、3、4,而随机 MAB 是 MDP 只有一个状态时的特例。 在没有外生性的情况下,奖励和状态转换分布在时间上是不变的,这三个挑战可以通过强化学习的上置信界限 (UCRL2) 算法共同解决 (Jaksch et al. 2010)。
UCB 和 UCRL2 算法利用面对不确定性的乐观 (OFU) 原则,根据历史数据的整个集合迭代地选择操作。 然而,当外生性出现时,两种算法都会迅速恶化,因为环境会随着时间而变化,并且历史数据会变得过时。 为了解决外生性的挑战,(Garivier 和 Moulines 2011)考虑了分段固定 MAB 环境,其中奖励分布在特定时间段内保持不变,并在未知时间步长处发生变化。 后来有一行由 (Besbes et al. 2014) 发起的研究一般非平稳 MAB 环境 (Besbes et al. 2014, Cheung et al. 2019b,a),其中奖励分布可以随时间任意变化,但总变化 (通过合适的指标量化)的上限是变化预算(Besbes et al. 2014)。 目的是最小化动态遗憾,即与最优动作序列的累积奖励相比的最优差距。 (相对限制性)分段平稳 MAB 和一般非平稳 MAB 设置都考虑了外生性、不确定性和部分反馈的挑战(即挑战 2、3、4),但不存在内生性(挑战 1)。
在本文中,为了解决上述所有四个挑战,我们在非平稳 MDP 中考虑 RL,其中机器人的奖励和状态转换分布可以随时间变化,但总变化(通过合适的指标量化)由各自的上限 变化预算。
我们注意到,在 (Jaksch et al. 2010) 中,作者还考虑了分段平稳 MDP 中的中间 RL。 尽管如此,我们首先在第 4.1 节中展示,然后在第 6 节中严格展示在分段固定 MDP (Jaksch et al. 2010) 到非平稳 MDP 中的 RL 可能会导致较差的动态后悔界限。
table1 不同顺序决策方法总结。只有非稳态MDP解决所有挑战
1.3 主要贡献总结
假设在 T 个时间步长期间,奖励和状态转换分布的总变化分别受变化预算 B r (> 0) 和 B p (> 0) 的限制(在适当的度量下),我们设计和分析 非平稳 MDP 中 RL 的新算法。 令 D max 、 S 和 A 分别是 MDP 中的最大直径(将在第 2 节中定义的复杂性度量)、状态数和动作数。 我们的主要贡献是: • 我们开发了具有置信度扩展的滑动窗口 UCRL2 (SWUCRL2-CW) 算法。
当变化预算已知时,我们通过预算感知分析证明它达到了 Õ D max (B r + B p ) 1/4 S 2/3 A 1/2 T 3/4 动态后悔界。
• 我们提出了强盗强化学习 (BORL) 算法,它自适应地调整 SWUCRL2-CW 算法,并保持相同的 Õ D max (B r + B p ) 1/4 S 2/3 A 1/2 T 3/4 动态后悔界限,不知道变化预算。
• 我们通过传统的乐观探索技术确定了非平稳 MDP 中 RL 面临的前所未有的挑战:用于非平稳在线学习的现有算法框架(包括分段平稳 MDP 中的非平稳 bandit 和 RL)(Jaksch 等人,2010,Garivier and Moulines 2011, Cheung et al. 2019b) 通常通过以“遗忘”方式对历史数据进行平均来估计未知参数,并相应地构建最紧密的置信区域/区间。 然后他们在置信区域内乐观地搜索最有利的模型,并执行相应的最优策略。 然而,我们首先在第 4.1 节中证明,然后在第 6 节中严格证明,在非平稳 MDP 中的 RL 的背景下,以这种方式构建的置信区域中的 MDP 诱导的直径可以急剧增长,并可能导致 不利动态后悔界。 我们通过信心扩大技术提出了额外乐观的新建议来克服这个问题。
表 2 提供了固定和非固定在线学习设置的算法框架摘要。
table2 稳态和非稳态在线学习算法总结
• 作为对这一发现的补充,假设对于任何一对初始状态和目标状态,总是存在一个动作,使得通过采取该动作从初始状态转换到目标状态的概率在整个时间内均匀地处于下界 在不扩大置信区域的情况下,DM 可以实现低动态后悔。 我们证明,在具有固定成本的单项库存控制的背景下(Yuan 等人,2019 年),需求分布的温和条件足以使这一额外假设成立。
1.4 论文结构
本文的其余部分组织如下:在第 2 节中,我们描述了感兴趣的非平稳 MDP 模型。 在第 3 节中,我们回顾了非平稳在线学习和强化学习的相关工作。 在第 4 节中,我们介绍了 SWUCRL2-CW 算法,并分析了它在动态后悔方面的性能。 在第 5 节中,我们设计了可以达到的 BORL 算法与 SWUCRL2-CW 算法相同的动态后悔界,但不知道总变化。
在第 6 节中,我们讨论了在漂移下为强化学习设计学习算法的挑战,并展示了新的置信扩展技术如何缓解这个问题。 在第 7 节中,我们讨论了在不扩大库存控制问题的置信区域的情况下的替代方法。 在第 8 节中,我们进行了数值实验,以展示我们算法的卓越经验性能。 在第 9 节中,我们总结了我们的论文。

2 问题描述

在本节中,我们介绍了整篇论文中使用的符号,并介绍了我们在非平稳 MDP 中的 RL 问题的学习协议。
2.1符号
在整篇论文中,所有向量都是列向量,除非另有说明。 我们将 [n] 定义为集合 { 1, 2, . . . , n } 对于任何正整数 n。 我们将 1[·] 表示为指示函数。 对于 p ∈ [1, ∞ ],我们使用 k x k p 来表示向量 x ∈ R d 的 p 范数。 我们将 x ∨ y 和 x ∧ y 分别表示为 x, y ∈ R 之间的最大值和最小值。 我们采用渐近符号 O(··)、Ω(··) 和 Θ(··) (Cormen et al. 2009)。 省略对数因子时,分别使用Õ(··)、Ω̃(··)、Θ̃(··)。 由于有些滥用,当我们试图避免显式写出常量的混乱时,会使用这些符号。
2.2 学习协议
模型原语:非平稳 MDP 的实例由元组 (S, A, T, r, p) 指定。 集合 S 是状态的有限集合。 集合 A = {A s } s∈S 包含每个状态 P s ∈ S 的有限动作集 A s 。 如果 s ∈ S , a ∈ A s ,我们说 (s, a) 是一个状态-动作对。 我们表示 S = |S| , A = ( s∈S |A s | )/S。
我们将 T 表示为时间步的总数,并将 r = { r t } Tt=1 表示为平均奖励序列。 对于每个 t,我们有 r t = { r t (s, a) } s∈S,a∈A s ,并且对于每个状态-动作对 (s, a) 有 r t (s, a) ∈ [0, 1]。 此外,我们将 p = { p t } Tt=1 表示为状态转换分布的序列。 对于每个 t,我们有 p t = { p t ( ·| s, a) } s∈S,a∈A s ,其中 p t ( ·| s, a) 是每个状态-动作对 (s , 一个)。
外生性:r t 和 p t 的数量通常在不同的 t 中有所不同。 继 (Besbes et al. 2014) 之后,我们根据 r t 和 p t 各自的变化预算 B r , B p (> 0) 来量化它们的变化:
(1)
我们强调,尽管 B r 和 B p 可能被 DM 用作输入,但在当前论文中,DM 并不知道单独的 B r,t 和 B p,t 。 对于等式中无穷范数和 1 范数的选择,我们也参考备注 2。 (1)。
内生性:DM 面对一个非平稳的 MDP 实例(S,A,T,r,p)。 她知道 S、A、T,但不知道 r、p。 DM 从任意状态 s 1 ∈ S 开始。 在时间 t,发生了三个事件。 首先,DM 观察其当前状态 s t 。 其次,她采取行动 a t ∈ A s t 。 第三,给定 s t , a t ,她随机转移到另一个状态 s t+1 ,分布为 p t ( ·| s t , a t ),并获得随机奖励 R t (s t , a t ),它是 1-sub-Gaussian 平均 r t (s t , a t )。 在第二种情况下,t 的选择基于非预期策略 Π。 也就是说,选择只取决于当前的 t−1 状态 s t 和之前的观测值 H t−1 := { s q , a q , R q (s q , a q ) } q=1 。
Dynamic Regret:尽管 r、p 和学习环境的动态存在模型不确定性,但 DM 旨在最大化累积预期奖励 E[t=1 r t (s t , a t )]。 为了衡量收敛到最优性,我们考虑最小化动态遗憾的等效目标(Besbes et al. 2014, Jaksch et al. 2010)
(2)
在预言机 P T ∗ t=1 ρ t 中,和 ρ ∗ t 是具有状态转移分布 p t 和平均奖励 r t 的固定 MDP 的最优长期平均奖励。 最优 ρ ∗ t 可以通过求解 A.1 节中提供的线性程序 (15) 来计算。 我们注意到,在分段固定 MDP 中,RL 使用了相同的预言机(Jaksch 等人,2010)。
备注 1(与非固定 MAB 的比较)。 当 S = 1 时,方程。 (2) 简化为非平稳 K 臂老虎机动态后悔的定义 (Besbes et al. 2014)。 然而,与强盗情况不同的 P T ,oracle t=1 ρ ∗ t 通常不等于非平稳 MDP 问题的预期最优值。 然而,我们在命题 1 中证明了这种选择是正确的。
备注 2(变更预算的定义)。 为简洁起见,我们选择分别定义具有无穷范数和 1 范数的奖励和状态转移分布的变化预算(参见方程 (1))。 人们还可以根据其他常用指标来定义它们,例如 2 norm (Cheung et al. 2019b),这只会影响后续部分中已建立的动态后悔界限对 S 和 A 的依赖。
接下来,我们回顾了 MDP 的相关概念,以规定一个确保可学习性并证明我们的预言的假设。
定义 1(传达 MDP 和直径(Jaksch 等人,2010))。 考虑一组状态 S ,一个集合 A = {A s } s∈S 的动作集,以及一个状态转移分布 p̄ = { p̄( ·| s, a) } s∈S,a∈A s 。 对于任意 s, s 0 ∈ S 和平稳策略 π,在 π 下从 s 到 s 0 的命中时间是随机变量 Λ(s 0 | π, s) := min { t : s t+1 = s 0 , s 1 = s, s τ +1 ∼ p̄( ·| s τ , π(s τ )) ∀ τ } ,它可以是无限的。 我们说 ( S , A , p̄) 是一个通信 MDP 当且仅当 D := max s,s 0 ∈S min 平稳 π E [Λ(s 0 | π, s)] 是有限的。 量 D 是与 ( S , A , p̄) 相关的直径。
备注 3(MDP 中的直径和 RL)。 如 (Jaksch et al. 2010) 所示,“直径”在表征 MDP 中 RL 的复杂性方面发挥着重要作用。 直观地说,为了做出信息决策,DM 必须准确估计数量 r t (s, a)'s 和 p t (·| s, a).'s。 换句话说,她必须足够频繁地访问每个状态 s ∈ S 并选择其每个可用动作 a ∈ A s 以收集相关样本。 因此,从状态 s 到另一个状态 s 0 的转换越困难,DM 在学习过程中遭受的损失就越大,而 MDP 的直径捕获了该 MDP 中状态之间转换的“硬度”。
根据上述说明,我们做出以下假设。
假设 1(有界直径)。 对于每个 t ∈ [T ],元组 ( S , A , p t ) 构成一个直径最大为 D t 的通信 MDP。 我们将最大直径表示为 D max = max t∈{1,…,T } D t 。
以下命题证明了我们选择预言机 P T ∗ t=1 ρ t 的合理性。
命题 1. 考虑一个实例 (S, A, T, p, r),它满足假设 1 的最大直径 D max ,并且分别具有奖励和过渡分布的变化预算 B r 、 B p 。 此外,假设 T ≥ B r + 2D max B p > 0,则有
()
最大值用于所有非预期策略 Π。 我们将 { (s Π t , a t ) } t=1 表示为 Π 是基于 Π 和 H t−1 ∪ { s Π 在策略 Π 下的轨迹,其中 a Π t } 和 s t+1 ∼ t ∈ A s Π t Π p t (·| s Π t , a t ) 对于每个 t。
该命题在附录 A.2 节中得到证明。 事实上,我们的动态后悔界限(见 p 即将出现的定理 1 和 2)大于误差项 4(D max + 1) (B r + 2D max B p )T , P T P T 因此证明选择 t=1 是合理的 ρ ∗ t 作为预言机。 事实证明,oracle t=1 ρ ∗ t 比预期的最优值更便于分析,因为前者可以分解为跨不同区间的求和,而不像后者由于 Π Π 内生动力学导致和交织在一起,即 , s Π t+1 ∼ p t (·| s t , a t )。

3 相关工作

3.1 稳态MDP的强化学习
固定式(折扣和未折扣奖励)MDP 中的强化学习已在(Burnetas 和 Katehakis 1997,Bartlett 和 Tewari 2009,Jaksch 等人 2010,Agrawal 和 Jia 2017,水果等。 2018a,b,西德福德等人。 2018b,a, Wang 2019, Zhang and Ji 2019, Fruit et al. 2019,魏等人。 2019)。 对于折扣奖励设置,(Sidford et al. 2018b, Wang 2019, Sidford et al. 2018a) 的作者在样本复杂度方面提出了(几乎)最优算法。
对于未折扣的奖励设置,(Jaksch et al. 2010) 的作者在奖励和状态转换分布都是时不变的情况下建立了一个关于遗憾的极小极大√ 下界 Ω( D max SAT )。 他们还设计了 UCRL2 算法,并表明它达到了后悔 √ 界 Õ(D max S AT )。 (Fruit et al. 2019) 的作者提出了 UCRL2B 算法,它是 UCRL2 算法的改进版本。 UCRL2B 算法的遗憾界是 √ 2 Õ(S D max AT + D max S 2 A)。 (Zhang and Ji 2019) 中提供了极小极大优化算法,尽管它的计算效率不高。
3.2 非稳态MDP的强化学习
在一项平行工作中(Ortner et al. 2019),作者考虑了与我们相似的设置,通过应用来自非平稳老虎机设置(Garivier and Moulines 2011,Cheung et al. 2019a)的“遗忘原理”来设计学习算法 . 为了实现其动态后悔界限,(Ortner et al. 2019) 的算法将整个时间范围 [T] 划分为时间间隔 I = { I k } K k=1 和 P max I k -1 P max I k -1 关键需要访问 t=min I k B r,t 和 t=min I k B p,t ,即每个区间 I k ∈ I 的奖励和状态转移分布的变化(参见定理 3 (Ortner 等人,2019 年))。 相比之下,SWUCRL2-CW 算法和 BORL 算法需要的变化信息要少得多。 具体来说,SWUCRL2-CW 算法不需要任何关于变化的额外知识,除了 B r 和 B p ,即在等式中定义的整个时间范围内的变化预算。 (1),实现其动态后悔界(见定理1)。 这类似于非平稳老虎机设置的算法,它只需要访问 B r (Besbes et al.
2014)。 更重要的是,BORL 算法(基于 SWUCRL2-CW 算法)即使不知道 B r 或 B p 也具有相同的动态后悔界(参见定理 2)。
也存在一些与我们的设置密切相关但又不同的设置(在外生性和反馈方面)。 (Jaksch et al. 2010, Gajane et al. 2018) 提出了分段平稳 MDP 设置中 RL 的解决方案。 但正如 1.2 节所讨论的,简单地将他们的技术应用于非平稳 MDP 中的一般 RL 可能会导致不希望的动态后悔界限(更多细节请参见第 6 节)。 在(Yu et al. 2009, Neu et al. 2010, Arora et al. 2012, Dick et al. 2014, Jin et al. 2019, Cardoso et al. 2019)中,作者考虑了 MDP 中的 RL,其奖励分布不断变化,但 固定的过渡分布。 (Even-Dar et al.
2005,Yu 和 Mannor 2009,Neu 等人。 2012,阿巴西-亚德科里等人。 2013 年,罗森伯格和曼苏尔 2019 年,李等人。 2019)在具有完整信息反馈的非平稳 MDP 中考虑 RL。
3.3 非平稳MAB
对于只有一种状态的在线学习和老虎机问题,(Auer et al.
2002a,Garivier 和 Moulines 2011,Besbes 等人。 2014,Keskin 和 Zeevi 2016)针对不同的非平稳 MAB 设置提出了几种“遗忘”策略。 最近,(Karnin and Anava 2016, Luo et al. 2018, Cheung et al. 2019b,a, Chen et al. 2019b) 的作品为非平稳 MAB 问题设计了无参数算法。 另一个相关但不同的设置是马尔可夫老虎机(Kim and Lim 2016, Ma 2018),其中所选动作的状态根据独立的时不变马尔可夫链演变,而其余动作的状态保持不变。 在(Zhou et al. 2020)中,作者还考虑了所有动作的状态都由相同的(不可控的)马尔可夫链控制的情况。

4 具有置信度扩展算法的滑动窗口 UCRL2

在本节中,我们首先描述 RL 在非平稳 MDP 中的独特挑战,然后介绍 SWUCRL2-CW 算法,该算法将我们新颖的置信扩展技术和滑动窗口估计 (Garivier and Moulines 2011) 结合到 UCRL2 (Jaksch et al . 2010)。
4.1 设计挑战:朴素滑动窗口 UCRL2 算法的失败
对于静止的 MAB 问题,UCB 算法 (Auer et al. 2002b) 建议 DM 应该在每个时间步迭代执行以下两个步骤: 1. 通过取所有观察到的样本的时间平均值来估计每个动作的平均奖励。
2. 选择具有最高估计平均奖励加上置信半径的动作,其中半径与观察次数成反比(Auer et al. 2002b)。
UCB 算法已被证明可以为各种固定 MAB 设置获得最佳后悔界限(Auer 等人 2002b,Kveton 等人 2015)。 对于非平稳问题,(Garivier 和 Moulines 2011,Keskin 和 Zeevi 2016,Cheung 等人 2019a)表明,DM 可以通过将滑动窗口估计器(Garivier 和 Moulines 2011)纳入 UCB 算法来进一步利用遗忘原理 (Auer et al. 2002b, Kveton et al. 2015) 为各种非平稳 MAB 设置实现最佳动态后悔界限。 窗口大小为 W ∈ R + 的滑动窗口 UCB 算法与 UCB 算法相似,只是估计的平均奖励是通过取 W 最近观察到的样本的时间平均值来计算的。
如第 1 节所述,(Jaksch et al. 2010) 提出了 UCRL2 算法,这是一种类似于 UCB 的算法,在静止 MDP 中对 RL 具有几乎最优的遗憾。 因此,人们很容易想到,也可以将遗忘原理集成到 UCRL2 算法中,以在非平稳 MDP 中实现 RL 的低动态后悔界。 特别是,人们可以很容易地设计一个简单的滑动窗口 UCRL2 算法,它遵循与 UCRL2 算法完全相同的步骤,除了它只使用 W 最近观察到的样本而不是所有观察到的样本来估计平均奖励和状态转移分布,并计算各自的置信半径。
然而,在非平稳性和老虎机反馈下,我们在即将到来的第 6 节的命题 3 中表明,由窗口大小为 W 的朴素滑动窗口 UCRL2 算法产生的估计 MDP 的直径可以与 Θ(W ) 一样大, 这比 D max 大几个数量级,D max 是 DM 遇到的每个单独 MDP 的最大直径。 因此,朴素的滑动窗口 UCRL2 算法可能会导致不希望的动态后悔界。 在下文中,我们将更详细地讨论我们新颖的置信扩展技术如何缓解这个问题。
4.2 算法概述
SWUCRL2-CW 算法首先指定滑动窗口参数 W ∈ N 和置信扩展参数 η ≥ 0。参数 W 指定要查看的先前时间步数。
在使用置信上限的传统乐观探索之上,参数 η 量化了额外乐观探索的数量。 后者被证明有助于处理状态转换分布中的时间漂移​​(参见第 6 节)。
该算法在划分 T 个时间步的一系列情节中运行。 第 m 集开始于时间 τ (m)(特别是 τ (1) = 1),并在时间步长 τ (m + 1) - 1 结束时结束。在第 m 集中,DM 遵循某个固定策略 π̃ τ (m) 。 如果满足以下两个标准中的至少一个,则 DM 停止第 m 集: • 时间索引 t 是 W 的倍数。因此,每个集最多持续 W 个时间步长。
该准则确保 DM 足够频繁地切换固定策略 π̃ τ (m),以适应外生动态。
• 存在一些状态-动作对 (s, a) 使得 ν τ (m) (s, a),即第 m 集内 (s t , a t ) = (s, a) 的时间步 t 的数量为 至少与 τ (m) 之前的 W 个时间步内的计数总数一样多,即从 (τ (m) - W ) ∨ 1 到 (τ (m) - 1)。 这类似于 (Jaksch et al. 2010) 中的加倍标准,它确保每一集足够长,以便 DM 可以专注于学习。
这两个标准的综合作用使 DM 能够从适当大小的时间窗口和置信度扩展参数中学习具有历史数据的低动态后悔策略。
一个重要的组成部分是每个情节 m 的策略 π̃ τ (m) 的构建。 为了允许在内生和外生动力学下学习,SWUCRL2-CW 算法根据当前情节 m 之前 W 个时间步的历史计算策略 π̃ m,即从轮 (τ (m) - W ) ∨ 1 到 round τ (m) − 1. π̃ τ (m) 的构造涉及扩展值迭代 (EVI) (Jaksch et al. 2010),它需要置信区域 H r,τ (m) , H p,τ ( m) (η) 为奖励和状态转移分布作为输入,除了一个精度参数。
置信扩展参数 η ≥ 0 能够确保 EVI 输出的 MDP 在大多数情况下具有有界直径。
4.3 策略构建
为了描述 SWUCRL2-CW 算法,我们首先为每个状态-动作对 (s, a) 和第 m 集的每个时间 t 定义
(3)
4.3.1 奖励的置信区域对于每个状态-动作对 (s, a) 和第 m 集的每个时间 t,我们考虑经验均值估计量
()
用于估计平均奖励
()
置信区域 H r,t = { H r,t (s, a) } s∈S,a∈A s 定义为
(4)
置信半径 rad- r,t (s, a) =
4.3.2 对状态转换分布的信心扩大 对于第 m 集的每个状态-动作对 s、a 和每个时间步 t,我们考虑经验均值估计量
()
用于估计平均转移概率
(5)
与估计奖励的情况不同,置信区域 H p,t (η) = { H p,t (s, a; η) } s∈S,a∈A s 为转移概率涉及一个加宽参数 η ≥ 0:
(6)
置信半径 rad- p,t (s, a) = 2 2S log (SAT /δ) /N t + (s, a)。 当 η > 0 时,DM 可以探索偏离样本平均值的状态转移分布,该探索对于学习内生和外生动力学下的 MDP 至关重要。 简而言之,η 的加入提供了额外的乐观来源。 我们目前将 η 视为超参数,并在讨论主要结果时提供合适的 η 选择(参见定理 1)。
Algorithm1
4.3.3 扩展值迭代 (EVI) (Jaksch et al. 2010) SWUCRL2-CW 算法依赖于 EVI,它通过对接近最优的乐观探索来解决 MDP。 我们在附录的 A.3 节中提取并改写了 EVI 的描述。 EVI 为奖励和状态转移分布输入置信区域 Hr、Hp。 该算法输出一个“乐观 MDP 模型”,它由奖励向量 r̃ 和状态转移分布 p̃ 组成,其中最优平均增益 ρ̃ 在所有 ṙ ∈ H r , ṗ ∈ H p 中最大:
**• 输入:**置信区域 H r 对于 r,H p 对于 p,并且误差参数 > 0。
**• 输出:**返回的策略π̃ 和辅助输出(r̃, p̃, ρ̃, γ̃)。 在后者中,r̃、p̃ 和 ρ̃ 是选定的“乐观”奖励向量、状态转换分布和相应的长期平均奖励。 输出 γ̃ ∈ R S + 是一个偏置向量 (Jaksch et al. 2010)。 对于每个 s ∈ S ,当 DM 从状态 s 开始并遵循最优策略时,数量 γ̃(s) 表示短期奖励。 通过 EVI 的设计,对于输出 γ̃,存在 s ∈ S 使得 γ̃(s) = 0。总而言之,我们表示
()
结合这三个组件,SWUCRL2-CW 算法的正式描述如算法 1 所示。
4.4 性能分析:更加乐观的祝福
我们现在分析 SWUCRL2-CW 算法的性能。 首先,我们引入两个事件 E r , E p ,它们表明估计的奖励和状态转移分布分别位于(未扩大的)置信区域。
()
我们证明 E r , E p 以高概率成立。
引理 1. 我们有 Pr[ E r ] ≥ 1 - δ/2,Pr[ E p ] ≥ 1 - δ/2。
引理 1 的证明见附录 B 节。 在定义 E p 时,扩展参数 η 设置为 0,因为我们只关心 p 的估计误差。 接下来,在对 H p,t (η) 的某些假设下,我们限制了每个时间步的动态后悔。 为了方便我们的讨论,我们为第 m 集的每个 t 定义以下变化度量:
()
命题 2。考虑一个情节 m。 以事件 E r , E p 为条件,并假设存在满足两个性质的状态转移分布 p: (1) ∀ s ∈ S ∀ a ∈ A s ,我们有 p( ·| s, a) ∈ H p, τ (m) (s, a; η), (2) (S , A , p) 的直径至多为 D。 那么,对于每个 t ∈ { τ (m), . . . , τ (m + 1) − 1 } 在第 m 集,我们有
(7)
(8)
命题 2 的证明见附录 C 节。 接下来,我们陈述我们的第一个主要结果,它提供了一个动态后悔界,假设已知 B r ,B p 来设置 W,η: 定理 1。假设 S > 1,SWUCRL2-CW 算法的窗口大小为 W,置信度扩大 参数 η > 0,且 δ = T -1 满足动态后悔界
()
如果我们进一步把 W = W ∗ = S 2/3 A 1/2 T 1/2 (B r + B p ) -1/2 和 η = η ∗ := Õ D max (B r + B p ) 1/4 S 2/3 A 1/2 T 3/4。
p B p W ∗ T -1 ,这是 定理 1 的证明在附录的 D 节中提供。
备注 4(信心扩大)。 类似于 UCRL2 算法((Jaksch et al. 2010) 的第 4 节)和 UCRL2B 算法(引理 3 和 (Fruit et al. 2019) 的 eqn. (10))的遗憾分析,命题 2 指出,如果 置信区域 H p,τ (m) (η) 包含状态转换直径最多为 D 的分布,则由 H p,τ (m) (η) 提供的 EVI 返回一个具有动态后悔界的策略,该策略在第 m 集期间最多随 D 线性增长。 然而,如后面第 6 节所示,必须仔细选择参数 η,以使 D 小作为 H p,τ (m) (0) 中每个状态转换分布的最坏情况直径(即,设置 η = 0 ) 可以将 √ 增长为 Ω̃( W ),并可能导致不利的动态后悔界。 在这里,参数 η 是我们新颖的置信扩展技术和由此产生的动态后悔界的基石:随着 η 的增加,每个状态-动作对的置信区域 H p,τ (m) (s, a; η) 变得更大 (一,一)。
考虑每个情节 m 的第一个时间步 τ (m):如果 p τ (m) (·| s, a) ∈ H p,τ (m) (s, a; η) 对于所有状态动作对 (s, a ),则可以利用命题 2; 否则,扩大的置信区域会强制消耗大量的变化预算。
备注 5(与非平稳 MAB 的动态遗憾边界的连接)。
当 S = { s } 时,我们的问题就变成了(Besbes et al.
2014),我们有 D max = 0 和 B p = 0。通过选择 W = W ∗ = A 1/3 T 2/3 /B r 2/3 ,我们的算法具有动态后悔 Õ(B r 1/3 A 1/3 T 2/3 ),当 B r ∈ [A -1 , A -1 T ] 时,匹配由 (Besbes et al. 2014) 限制的极小极大最优动态后悔。
备注 6(与固定 MDP 中 RL 的遗憾边界的连接)。 当 r 1 = . . . = r T 和 p 1 = 。 . . = p T ,我们的问题变成了 (Jaksch et al. 2010) 研究的静止 MDPs 问题中的 RL,并且 W = T 和 η = 0 的 SWUCRL2-CW 算法可以恢复 √后悔界 Õ(D max S AT ) (Jaksch et al. 2010) 中研究的 UCRL2 算法。
备注 7(不知道 B r 和 B p 的动态遗憾边界)。 与 (Cheung 2 1 1 et al. 2019b,a) 类似,如果 B p , B r 未知,我们可以不经意地将 W 和 η 设置为 W = S 3 A 2 T 2 , η = p 2 1 1 W /T = S 3 A 2 T - 2 以获得动态后悔界 Õ D max (B r + B p + 1)S 2/3 A 1/2 T 3/4 。

5 Bandit-over-Reinforcement 学习算法:走向无参数

正如备注 7 所指出的,在 B r 和 B p 未知的情况下,SWUCRL2-CW 算法的动态遗憾在 B r 和 B p 中线性缩放。 然而,通过定理 1,我们确信一对固定的参数 (W * , η * ) 可以确保低动态后悔。 对于强盗设置,(Cheung et al. 2019a,b) 提出了 bandit-over-bandit 框架,该框架使用 EXP3 算法的单独副本来调整窗口大小。 受此启发,我们开发了一种新的 Bandit-over-Reinforcement Learning (BORL) 算法,该算法具有无参数 Õ D max (B r + B p + 1) 1/4 S 2/3 A 1/2 T 3/4 动态遗憾在这里。
**5.1 算法概述**
遵循与 (Cheung et al. 2019a) 类似的推理路线,我们使用 SWUCRL2-CW 算法作为子程序,并“对冲” (Bubeck and Cesa-Bianchi 2012)adversarial) r t 和 p t 的变化,以确定合理的固定窗口大小和置信扩展参数。

如图 1 所示,BORL 算法将整个时间范围划分为 d T /H e 个等长 H 轮的块(最后一个块的长度可以≤H),并指定一个集合 J,其中每对 ( 窗口大小,置信度扩大)参数来自。 对于每个块 i ∈ [ d T /H e ],BORL 算法首先调用一些主算法来选择一对(窗口大小,置信度扩大)参数 (W i , η i ) ( ∈ J),并重新启动 SWUCRL2 -CW 算法以选定的参数作为子例程来为该块选择动作。 之后,区块 i 的总奖励会反馈给主节点,这些参数的“后验”也会相应更新。
在老虎机设置中没有提出的一个直接挑战(Cheung et al. 2019b)是每个块的起始状态是由 DM 之前的移动决定的。 因此,主算法不会像 (Cheung et al. 2019b) 中那样面对简单的遗忘环境,我们不能使用 EXP3 (Auer et al. 2002a) 算法作为主算法。 尽管如此,幸运的是,在块开始之前观察到状态。 因此,我们将 EXP3.P 算法用于多臂老虎机对抗自适应对手(Auer et al. 2002a, Bubeck and Cesa-Bianchi 2012)作为主算法。 我们遵循(Bubeck 和 Cesa-Bianchi 2012)第 3.2 节中的说明来调整 EXP3.P 算法。
figure1
5.2 算法细节
我们现在准备好说明 BORL 算法的细节。 对于块长度 H 的一些固定选择(稍后确定),我们首先定义几个附加符号:
(9)
这里,J W 和 J η 分别是窗口大小和置信扩展参数的可能选择,J 是它们与 | 的笛卡尔积。 Ĵ | = Δ。 我们还让 R i (W, η, s) 为总和对于从状态 s 开始的块 i 运行具有窗口大小 W 和置信扩展参数 η 的 SWUCRL2-CW 算法的奖励,EXP3.P 算法将 J 的每个元素视为一个臂。 它从初始化开始
(10)
其中 M = { (j 0 , k 0 ) : j 0 ∈ { 0, 1, . . . , Δ W } , k 0 ∈ { 0, 1, . . . , Δ η }} 。 在每个块 i ∈ [ d T /H e ] 的开始,BORL 算法首先看到状态 s (i−1)H+1 ,并计算
(11)
然后它以概率 u (j,k),i ∀ (j, k) ∈ M 设置 (j i , k i ) = (j, k)。因此选择的参数对是 W i = H j i / Δ W 和 η i = Φ k i /Δ η 。 之后,BORL 算法从状态 s (i-1)H+1 开始,通过运行 SWUCRL2-CW 算法来选择动作,窗口大小为 W i 和置信扩展参数 η i 为块 i 中的每一轮 t。 在区块结束时,BORL 算法观察总奖励 R W i , η i , s (i-1)H+1 。 作为最后一步,它通过将 R W i , η i , s (i−1)H+1 除以 H 来重新调整 R W i , η i , s (i−1)H+1 使其在 [0, 1] 内,然后更新
(12)
BORL 算法的正式描述(H 在下一小节中定义)如算法 2 所示
Algorithm 2
5.3 性能分析
BORL 算法的动态后悔保证可表示如下 定理 2 假设 S > 1,概率为 1 − O(δ),BORL 算法的动态后悔界为 Õ D max (B r + B p + 1) 1/4 S 2/3 A 1/2 T 3/4 定理2的证明见附录E节。

6 学习马尔可夫决策过程中漂移的危险

在随机在线学习问题中,即使样本分布随时间变化,通常也通过取观察样本的时间平均值来估计潜在量。 这已被证明在固定和非固定老虎机设置中运行良好(Auer 等人 2002b,Garivier 和 Moulines 2011,Cheung 等人 2019a,b)。 扩展到RL,很自然地要考虑样本平均转移分布p̂ t ,它使用前W轮的数据来估计p时间平均转移分布p̄ t 到一个加性误差Õ(1/ N t + ( s, a))(参见第 4.3.3 节和引理 1)。 在静止 MDP 的情况下,其中 ∀ t ∈ [T ] p t = p,有 p̄ t = p。
因此,未加宽的置信区域 H p,t (0) 以高概率包含 p(参见引理 1)。
因此,(Jaksch et al. 2010) 的 UCRL2 算法对 H p,t (0) 进行了乐观的探索,但遗憾的是,它与 p 的直径成线性关系。
(Jaksch et al. 2010, Gajane et al. 2018) 将乐观探索 H p,t (0) 的方法进一步扩展到分段平稳 2/3 2/3 1/3 2/3 S A T ) MDP 中的 RL . 后者建立了一个 O(1/3 D max 动态后悔界限,当最多有 变化时。他们的分析包括将 T 轮水平划分为 C · T 1/3 等长区间,其中 C 是一个常数 取决于 D max , S, A, 。至少 CT 1/3 - 区间享受静止环境,并且在这些区间中乐观地探索 H p,t (0) 会产生与 D max 线性缩放的动态后悔界限。 剩余间隔的动态遗憾通过它们的长度和调整 C 产生所需的界限。
与固定和分段固定设置相比,对 H p,t (0) 的乐观探索可能会导致非固定 MDP 中的不利动态后悔界限。 在 p t−W 的非平稳环境中,. . . , p t−1 通常是不同的,我们表明不可能根据 p t−W 的最大直径来限制 p̄ t 的直径。 . . , p t−1 。 更一般地,我们不仅为 p̄ t 证明了前面的主张,而且还证明了以下命题中的每个 p̃ ∈ H p,t (0)。 该命题展示了探索分段平稳 MDP 中不存在的非平稳 MDP 的独特挑战,并激发了我们的置信度随着 η > 0 扩大的概念。为了简化符号,我们在不失一般性的情况下设置 t = W + 1 .
命题 3. 存在一系列非平稳 MDP 转换分布 p 1 , . . . , p W 使得 • ( S , A , p n ) 的直径对于每个 n ∈ [W ] 为 1。
• 状态转换分布的总变化为 O(1)。
然而,在某些确定性策略下, 1. 经验 MDP ( S , A , p̂ W +1 ) 具有直径 Θ(W ) p 2。此外,对于每个 p̃ ∈ H p,W +1 (0),MDP ( S , A , p̃) 的直径为 Ω( W/ log W )
证明。 序列 p 1 , . . . , p W 在以下 2 个实例 p 1 , p 2 之间交替。 现在,定义公共状态空间 S = { 1, 2 } 和动作集合 A = {A 1 , A 2 } ,其中 A 1 = { a 1 , a 2 } , {A 2 } = { b 1 , b 2 } 。 我们假设所有状态转换都是确定性的,图 2 中显示了图形说明。显然,我们看到两个实例的直径均为 1。
figure 2
现在,考虑以下两个确定性和固定策略 π 1 : π 1 (1) = a 1 , π 1 (2) = b 2 和 π 2 : π 2 (1) = a 2 , π 2 (2) = 乙 1 。 由于 MDP 是确定性的,因此我们有 p̂ W +1 = p̄ W +1 。
在下文中,我们构建了一个轨迹,其中 DM 在时间 { 1, … 期间在策略 π 1 , π 2 之间交替。 . . , W } 而底层转换分布在 p 1 , p 2 之间交替。 在构造中,无论她采取什么行动 a 1 、 a 2 (或 b 1 、 b 2 ),DM 几乎总是在整个视界处于状态 1(或 2)的自循环中。 因此,它会欺骗 DM 认为 p̂ W +1 (1 | 1, a i ) ≈ 1 对于每个 i ∈ { 1, 2 } ,同样 p̂ W +1 (2 | 2, b i ) ≈ 1 对于每个 我 ∈ { 1, 2 } 。 总而言之,这将导致 DM 得出结论,( S , A , p̂ W +1 ) 构成一个大直径 MDP,因为从状态 1 转换到 2(和 2 到 1)的概率接近于 0。
施工详述如下。 令 W = 4τ 。 此外,让状态转移分布为
()
DM 从状态 1 开始。她从时间 1 到时间 2τ 遵循策略 π 1,然后从 2τ + 1 到 4τ 遵循策略 π 2。
在指定的 MDP 模型和策略下,可以很容易地验证 DM 从时间 1 到 τ + 1 采取行动 a 1,从时间 τ + 2 到 2τ 采取行动 b 2,从时间 2τ + 1 到 3τ + 采取行动 b 1 1,并从时间 3τ + 2 到 4τ 动作 a 2 。 结果,DM 从时间 1 到 τ + 1 处于状态 1,从时间 τ + 2 到 3τ + 1 处于状态 2,最终从时间 3τ + 2 到 4τ 处于状态 1,如图 3 所示。因此,我们 有:
()
figure 3
并且可以很容易地验证 (S , A , p̂ W +1 ) 的直径是 τ + 1 = Θ(W )。 最后,对于置信区域 H p,W +1 (0) = { H p,W +1 (s, a; 0) } s,a 构造没有置信扩展,对于任何 p̃ ∈ H p,W +1 ( 0) 我们有
()
分别。 由于随机置信半径 q log W τ +1 和 Θ q log W τ -1 支配样本 1 τ +1 和 0。因此,对于任何 p̃ ∈ H p,W +1 (0),由 q W ( S , A , p̃) 构造的 MDP 的直径至少为 Ω 。
备注 8. 在命题 3 中,单个 MDP p 1 、 . 之间的差异有两个原因。 . . , p W 和未加宽置信区域 H p,W +1 (0) 中的 MDP: • 首先,由于强盗反馈,用于构造 p̂ W +1 的样本来自不同时间的不同状态动作对。 因此,p̂ W +1 和 p̄ W +1 可能与每个单独的状态转移概率分布 p 1 ,…有很大不同。 . . , p W。
• 其次,对每个状态-动作对的访问次数大约为 W/4,这意味着如果我们遵循基于标准的乐观探索技术,我们将 √ 拥有非常“狭窄”的置信区域(数量级为 Õ(1/W)) 关于浓度不等式(即,置信区域随着样本数量的增加而缩小)。
至关重要的是,如命题 2(以及 (Jaksch et al. 2010) 的第 4 节)以及引理 3 和等式所示。 (Fruit et al. 2019) 的 (10) 中,置信区域中 MDP 的最小直径在导致低(动态)遗憾界限方面起着关键作用。 因此,我们认为通过传统的乐观探索学习非平稳 MDP 的警告通常是基本的。 在当前的论文中,我们利用我们新颖的置信扩展技术来防止置信区域变得太窄,即使我们有很多样本。
备注 9. 检查 MDP 设置中随机 MAB 和 RL 的流行 OFU 引导方法(Auer 等人 2002b、Abbasi-Yadkori 等人 2011、Jaksch 等人 2010、Bubeck 和Cesa-Bianchi 2012,Lattimore 和 Szepesvári 2018),通常得出结论,更严格的置信区域设计可以导致更低的(动态)遗憾界限。 在 (Abernethy et al. 2016) 中,这种见解已通过潜在的函数类型参数在随机 K 臂老虎机设置中形式化。 然而,命题 3(连同定理 1)表明,在学习算法设计中使用最紧密的置信区域可能不足以确保 RL 在非平稳 MDP 中的动态后悔界较低。

7 在库存控制中的应用扩大信心的替代方案

如前几节所述,在扩展置信区域的情况下运行所提出的算法可以帮助 DM 在非平稳 MDP 中的一般 RL 中获得可证明的低动态后悔。 然而,如果状态转换分布具有特殊结构,则并不总是需要扩大置信度。 特别地,我们考虑以下关于状态转移分布 p 1 , 的假设。 . . , p T。
假设 2. 存在一个正数(DM 不一定知道)ζ ∈ R + ,因此对于任何一对状态 s, s 0 ∈ S ,都有一个动作 a (s,s 0 ) ∈ A s 满足 p t s 0 | s, a (s,s 0 ) ≥ ζ 对于所有 t ∈ [T ]。
我们现在可以在假设 2 下分析 SWUCRL2-CW 算法的动态后悔界。在这里,我们遵循第 2 节中介绍的符号以保持一致性。 一般来说,假设 2 确保对于每个时间步 t ∈ [T ],存在一个状态转移分布 p ∈ H p,t (0) 使得 MDP ( S , A , p) 的诱导直径是上限 由常数 D̄ := 1/ζ 概率很高。
命题 4. 在假设 2 下,以事件 E p 为条件,在置信区域 H p,t (0) 中存在状态转移分布 p,使得 MDP ( S , A , p) 的诱导直径为 大多数 D̄ := 1/ζ 对于所有 t ∈ [T ]。
命题 4 的证明见附录 F 节。 该命题表明,DM 可以通过实施 η = 0 的 SWUCRL2-CW 算法来实现有界的动态后悔。为了分析其动态后悔界,我们提供了命题 2 的变体,如下所示。
命题 5。考虑一个情节 m。 以事件 E r , E p 为条件,然后对于每个 t ∈ { τ (m), . . . , τ (m + 1) − 1 } 在第 m 集,我们有
()
证明类似于命题 2 的证明,其中 D τ (m) 被 D̄ 替换,η 分别设置为 0。 当假设 2 成立时,我们现在准备说明 SWUCRL2-CW 算法的动态后悔界。
定理 3. 在假设 2 下,假设 S > 1,SWUCRL2-CW 算法窗口大小为 W,置信扩展参数 η = 0,δ = T -1 满足动态后悔界
()
如果我们进一步把 W = W ∗ = S 2/3 A 1/2 T 2/3 (B r + B p + 1) -2/3 ,这个动态后悔界是 Õ D̄(B r + B p + 1) 1/3 S 2/3 A 1/2 T 2/3。
我们省略了证明,因为它类似于定理 1。
7.1 库存控制应用
在本小节中,我们首先在与(Yuan et al. 2019)相似的零前置时间、固定成本和销售损失的单一非易腐物品库存控制问题的背景下详细阐述假设 2,然后演示如何实施 SWUCRL2-CW 算法解决了这个问题。 对于库存控制问题的每个时间步 t ∈ [T ](有一些符号滥用),会发生以下事件序列: 1. 卖方首先观察她的库存水平 s t ,并决定订购数量 a t 。
2. 如果 a t > 0,则产生固定成本 f 和 c 单位订购成本,并且订单瞬间到达。 然后库存水平变为 s t + a t 。
3. 需求 X t 实现,卖方观察到审查后的需求 Y t = min { X t , s t + a t } 。
DM 面临非平稳需求,即需求分布 X 1 , 。 . . , X T 在时间步 1, . . . T 是独立的但不是同分布的。
4. 未满足的需求导致每单位损失的销售成本为 l,而过多的库存导致每单位持有成本为 h。 时间步 t 的总成本为
(13)
由于需求审查,成本是不可观察的。
卖方的目标是最小化累计总成本 P T t=1 C t (s t , a t )。
为了将其映射到我们在第 2 节中描述的非平稳 MDP 模型,我们将每个时间步开始时的库存水平表示为状态。 与 (Yuan et al. 2019) 相同(并且类似于 (Huh and Rusmevichientong 2009, Zhang et al. 2018, Agrawal and Jia 2019)),我们假设 DM 的货架容量有限,她最多可以容纳 S 个单位 随时清点库存。 最后, S = { 0, . . . , S } 和 A s = { 0, . . . , S − s } 对于每个 s ∈ S 。 我们还定义了所有 t ∈ [T ]、s、s 0 ∈ S 和 a ∈ A s 的奖励和状态转换分布,如下所示:
()
然而,值得强调的是,与我们在第 2 节中的设置不同,R t (s, a) 是不可观察的,因为 C t (s, a) 是不可观察的。 尽管如此,我们将在第 7.1.2 节中证明,可以使用(Agrawal 和 Jia 2019)中提出的伪奖励技术来绕过这个问题。
根据假设 2,我们对 X 1 进行严格的正概率质量函数 (PMF) 假设。 . . , X T。
假设 3(严格正 PMF)。 有一个 ζ > 0 使得 Pr(X t = s) ≥ ζ > 0 对于所有 t ∈ [T ] 和 s ∈ { 0, . . . , S } .
备注 10. 可以很容易地验证,如果需求满足严格的正 PMF 假设,则潜在的库存控制问题满足假设 2。确实,DM 可以从状态 s ∈ S 转移到另一个状态 s 0 ∈ S,概率为 通过对项目的 S - s 个单位进行排序来最小化 ζ,因为那时 p t (s 0 | s, S - s) = Pr(X t = S - s 0 ) ≥ ζ。
7.1.1 与现有库存控制模型的比较我们首先比较我们的设置和现有的关于单个不易腐烂物品库存控制问题和销售损失的问题。
与 (Huh and Rusmevichientong 2009, Zhang et al. 2018, Yuan et al. 2019, Agrawal and Jia 2019) 类似,本节提出的模型研究了具有销售损失的单一非易腐物品库存控制问题。 然而,在成本函数、需求分布和交货时间方面,我们的工作与现有工作之间存在几个关键差异:
**• 成本函数:**在(Huh 和 Rusmevichientong 2009)中,作者假设没有固定成本的线性采购成本函数, 线性损失销售和持有成本函数。 在 (Yuan et al.
2019),作者还允许固定成本。 在(Zhang et al. 2018, Agrawal and Jia 2019)中,作者假设损失销售成本函数和持有成本函数是线性的,并且没有采购成本。 在我们的设置中,我们的成本函数与(Yuan et al.
2019)。
**• 需求分布:**In (Huh and Rusmevichientong 2009, Zhang et al. 2018, Yuan et al.
2019,Agrawal 和 Jia 2019),作者假设需求分布是平稳的,但他们承认连续或离散的需求分布。 相反,我们允许非平稳的需求分布,但我们要求需求分布必须是离散的,并且满足上述严格的正 PMF 假设。
**• 提前期:**在(Zhang et al. 2018, Agrawal and Jia 2019)中,作者允许提前期为正值; 而在 (Huh and Rusmevichientong 2009, Yuan et al. 2019) 和我们的设置中,我们假设提前期为零。
表 3 中提供了比较的总结。
table 3
7.1.2 SWUCRL2-CW 算法的实现 正如第 7.1 节所指出的,与我们在第 2 节中提出的模型不同,由于审查需求,每个时间步 t 的奖励不能直接观察到。 尽管如此,我们可以按照(Agrawal 和 Jia 2019)中提出的伪奖励技术在一系列适当设计的伪奖励分布上实现 SWUCRL2-CW 算法。
特别是,我们将每个时间步 t ∈ [T ]、每个状态 s 和每个动作 a ∈ A s 的伪奖励跟随定义(Agrawal 和 Jia 2019)为
()
我们记得 Y t = min { s + a, X t } 是审查后的需求。 我们注意到伪奖励是完全可观察的。 我们还将平均伪奖励或每个时间步 t ∈ [T ]、每个状态 s 和每个动作 a ∈ A s 定义为
(14)
这表明无论状态和动作如何,时间步长 t 的平均伪奖励可以通过将相应的平均奖励均匀地移动 l·E[X t ] 来获得。 不失一般性,我们假设对于所有 t ∈ [T ]、s ∈ S 和 a ∈ A s ,平均伪奖励是有界的,即 r t pseudo (s, a) ∈ [0, 1],并且 伪奖励 R t pseudo (s, a) 是 1-sub-Gaussian,平均 r t pseudo (s, a)。
将 ρ ∗pseudo 定义为具有状态 trant 位置分布 p t 和平均奖励 r t pseudo = { r t pseudo (s, a) } s∈S,a∈A s 的固定 MDP 的最佳长期平均奖励,我们可以证明 对于任何策略 Π,元组 M = ( S , A , T, r, p) 指定的非平稳 MDP 实例的动态遗憾和元组 M 伪指定的非平稳 MDP 实例的动态遗憾 = ( S , A , T, r pseudo = { r t pseudo } Tt=1 , p) 是相同的。
命题 6. 对于任何策略 Π,我们将在 M 上遵循 Π 的样本路径表示为 { s t ( M ), a t ( M ) } Tt=1 ,将在 M 伪上遵循 Π 的样本路径表示为 { s t ( M pseudo ), a t ( M pseudo ) } Tt=1 , 我们有
()
命题 6 的证明见附录 G 节。 连同定理 3,我们对 SWUCRL2-CW 算法在零前置时间、固定成本和销售损失的单一非易腐物品库存控制问题上具有以下动态后悔界保证。
定理 4. 对于 7.1 节的库存控制模型,在假设 3 下,假设 S > 1,SWUCRL2-CW 算法窗口大小为 W,置信扩展参数 η = 0,δ = T -1 满足动态后悔界
()
如果我们进一步把 W = W ∗ = ST 2/3 (B r + B p + 1) -2/3 ,这个动态后悔界是Õ D̄(B r + B p + 1) 1/3 ST 2/ 3.
备注 11. 为了解释 SWUCRL2-CW 算法在库存控制背景下的动态后悔界限,我们注意到在定理 4 中,我们将成本函数归一化,使得每个时间段内产生的成本在 [0, 1] . 这与 (Huh and Rusmevichientong 2009, Zhang et al. 2018, Yuan et al. 2019, Agrawal and Jia 2019) 中的设置略有不同,其中成本函数的上限为 O(S)。

8 数值实验

作为对我们理论结果的补充,我们对合成数据集进行了数值实验,以将我们算法的动态后悔性能与 UCRL2 算法 (Jaksch et al. 2010) 进行比较,UCRL2 算法是 MDP 中使用最广泛的强化学习基准之一,因为 到其在静止环境中几乎最优的遗憾界限(Wei et al. 2019),以及分段静止 MDP 中 RL 的重启 UCRL2(表示为 UCRL2.S)算法(Jaksch et al. 2010) 设置:我们考虑一个具有 2 个状态 { s 1 , s 2 } 和 2 个动作 { a 1 , a 2 } ,并设置 T = 5000。奖励确定地设置为
()
figure 4
因此,平均奖励的总变化为 B r = 15V r = Θ(V r )。 图 4 提供了状态 s 2 和动作 a 2 的奖励过程的说明(其他(状态,动作)对的平均奖励是相似的)。 状态转移分布设置为
()
其中 β t 受以下过程控制:
()
因此,状态转换分布的总变化为 B p = 12V p = Θ(V p )。 在这个模拟中,我们允许 V r 和 V p 从 {T 0.2 , T 0.5 } 中取值来评估算法在低变化和高变化场景中的性能。 在这里,我们假设 SWUCRL2-CW 算法知道变化预算,并且 UCRL2.S 算法每 b T 2/3 c 个时间步重新启动 UCRL2 算法。 所有结果均在 50 次运行中取平均值。
结果:算法在不同变化预算下的累积奖励如图 5 所示。结果表明,SWUCRL2-CW 算法和 BORL 算法都能够比 UCRL2 算法和 UCRL2 多收集至少 20% 的奖励。 .S 算法除了 B p = Θ(T 0.5 ) 和 B r = Θ(T 0.2 ) 的情况外,百分比提高了 12%。 比较图 2 中的结果。 从图 5(a)、5(b) 和 5© 可以看出,SWUCRL2-CW 算法和 BORL 算法对状态转换分布的变化比奖励分布的变化更鲁棒。 这证明了我们的信心扩大技术的力量。 有趣的是,我们可以在图 2 中看到。 如图 5(a)、5(b) 和 5© 所示,BORL 算法(不知道变化预算)的累积奖励高于 SWUCRL2-CW 算法(知道变化预算)。 这确实与我们的理论结果没有矛盾。 定理 1 和 2 表明 SWUCRL2-CW 算法和 BORL 算法享有相同的(在 Õ( · ) 的意义上)最坏情况动态后悔界。 尽管如此,我们在图 4 中构建的环境并不是最坏的情况,结果表明 BORL 算法的自适应主算法(即 EXP3.P 算法)能够利用这种更良性的环境来获得更高的 奖励。
figure 5

9 结论

在本文中,我们研究了在逐渐变化的环境中的非折扣强化学习问题。 在这种情况下,只要总变化分别受到一些变化预算的限制,参数(即奖励和状态转换分布)可能会不时变化。 我们首先结合了滑动窗口估计器和新颖的置信度扩展在 UCRL2 算法中引入了一种在已知变化预算时具有低动态后悔的 SWUCRL2-CW 算法。 然后我们设计了一个无参数的 BORL 算法,它允许我们在不知道变化预算的情况下享受与 SWUCRL2-CW 算法相同的动态后悔界限。 所提出算法的主要成分是新颖的置信扩展技术,它为学习算法的设计注入了额外的乐观情绪,从而确保了低动态后悔界限。 这与普遍认为的(固定和非固定)随机在线学习设置的乐观探索算法应该采用尽可能低的乐观水平形成鲜明对比。 为了扩展这一发现,我们还以固定成本的单件库存控制问题为例,展示了如何利用状态转换分布中的特殊结构来获得低动态后悔界限而不扩大置信区域。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值