Bypassing the Monster: A Faster and Simpler Optimal Algorithm for Contextual Bandits under Realizabi

摘要

我们考虑可实现性假设下的一般(随机)上下文老虎机问题,即预期奖励,作为上下文和动作的函数,属于一般函数类 F。我们设计了一种快速简单的算法,可以实现统计上最优的后悔 在所有 T 轮中,只有 O(log T ) 调用离线回归预言机。 如果事先知道 T,则预言机调用的数量可以进一步减少到 O(log log T)。 我们的结果提供了从上下文老虎机到离线回归的第一个普遍和最佳的减少,解决了上下文老虎机文献中的一个重要的开放问题。 我们的结果的一个直接结果是,离线回归的任何进步都会立即转化为统计和计算上的上下文强盗。 这导致更快的算法和更广泛类别的上下文老虎机问题改进的遗憾保证。

引言

上下文老虎机问题是在线决策和交互式机器学习的基本框架,具有从医疗保健(Tewari 和 Murphy 2017、Bastani 和 Bayati 2020)到电子商务(Li et al. 2010、Agarwal et al. 2016)等多种应用 . 它在计算机科学、运筹学和统计学文献中得到了广泛的研究。
从广义上讲,上下文强盗的方法可以分为两类(参见 Foster 等人,2018 年):基于可实现性的方法,它依赖于对模型表示的弱或强假设,以及完全无模型的不可知论方法。 尽管在过去 20 年中提出了许多不同的上下文老虎机算法(基于可实现性或不可知论),但它们中的大多数都存在理论或实践问题(参见 Bietti 等人,2009 年)。
2018)。 现有基于可实现性的算法建立在置信上限之上(例如,Filippi 等人 2010、Abbasi-Yadkori 等人 2011、Chu 等人 2011、Li 等人 2017)和 Thompson 采样(例如,Agrawal 和 Goyal 2013, Russo et al. 2018) 依赖于对模型表示的强假设,并且仅适用于特定的参数化模型系列,如广义线性模型。同时,对模型表示不做任何假设的不可知算法(例如,Dudik et al. 2011, Agarwal et al. 2014)可能会导致实践中过度保守的探索(Bietti et al. 2014)。
2018),并且他们对离线成本敏感分类预言机作为子程序的依赖通常会导致实施困难,因为预言机本身通常在计算上难以处理。
目前,设计适用于大规模现实世界部署的可证明最优的上下文老虎机算法仍然被广泛认为是一项非常具有挑战性的任务(参见 Agarwal 等人。
2016 年,福斯特和拉赫林 2020 年)。
最近,福斯特等人。 (2018 年)提出了一种使用离线回归预言机解决具有通用模型表示(即通用函数类)的上下文强盗的方法 - 由于其在现代模型中的核心作用,预言机通常可以有效实现并且对众多函数类具有广泛的可用性 机器学习。 具体来说,受到 Krishnamurthy 等人的工作的启发。 (2019 年)提出了这样一个关键想法,Foster 等人。 (2018)假设可以访问加权最小二乘回归预言,这被认为非常实用,因为它具有强凸损失函数并且适用于基于梯度的方法。 作为福斯特等人。 (2018) 指出,设计基于离线回归预言机的算法是使上下文强盗实用化的一个有前途的方向,因为它们似乎结合了基于可实现性和不可知算法的优点:它们具有通用性和灵活性,足以与任何给定的 函数类,同时使用比计算昂贵的分类预言更现实和合理的预言。 事实上,根据 Foster 等人进行的多项实验和广泛的经验评估。 (2018) 和 Bietti 等人。 (2018),福斯特等人的算法。 (2018)在现有的上下文强盗方法中“整体效果最好”。
尽管它的经验成功,福斯特等人的算法。 然而,(2018 年)理论上是最坏情况下的遗憾。 Foster et al. (2018) 将上下文最优的最优后悔——它可能导致 Ω(T bandits 是否可以通过基于离线回归oracle 的算法获得) 列为一个开放问题。事实上,这个问题已经 自 2012 年起对老虎机社区开放——它可以追溯到 Agarwal 等人 (2012),其中作者提出了一种计算效率低下的 p e KT log |F| ) 遗憾,用于实现最优 O( 函数类的一般有限上下文老虎机算法 F ,但将设计计算上易于处理的算法作为一个悬而未决的问题。
最近,Foster 和 Rakhlin (2020) 提出了一种算法,该算法通过假设访问在线回归预言机(不是离线预言机,必须与自适应对手一起工作)来实现上下文强盗的最佳后悔。 他们发现上下文强盗可以简化为在线回归是新颖而重要的,并且他们的结果也非常普遍:它只需要最小的可实现性假设,并且即使在对抗性地选择上下文时也是如此。 然而,与访问离线回归预言机相比,访问在线回归预言机是一个更强大(且相对限制性)的假设。 尤其,在线回归的最佳和高效算法仅对特定的函数类已知,远不如离线回归已知的算法。 Foster and Rakhlin (2020) 再次将上下文强盗的最佳遗憾归结为离线回归预言机来获得。
1.1 Our Contributions
在本文中,我们研究了上下文强盗文献(Agarwal et al. 2012, Foster et al. 2018, Foster and Rakhlin 2020)中反复提到的以下问题: 一般(随机)上下文强盗?
我们通过提供从上下文老虎机到离线回归的第一个最佳黑盒减少,只有最小的可实现性假设来肯定地回答这个问题。 这一结果的意义在于,它将上下文强盗(一个突出的在线决策问题)简化为离线回归,这是一个非常基本且常见的监督学习任务,是现代机器学习的基石。 这一结果的一个结果是,解决离线回归问题的任何进展都转化为统计和计算上的上下文强盗。 请注意,这种线上到线下的减少对于一般的在线学习问题来说是非常重要的; 事实上,从完全对抗性的在线学习到离线学习的一般减少是不可能的(Hazan 和 Koren 2016)。
我们的简化是通过提供一个惊人的快速和简单的算法来完成的(该算法建立在 Abe 和 Long 1999、Agarwal 等人 2014、Foster 和 Rakhlin 2020 的方法的基础上并连接起来),并为该算法提供了强有力的理论保证。 对于一般有限 p e KT log |F| ) 遗憾的是,仅使用 O(log T ) 函数类 F ,我们的算法在 T 轮内实现了对离线最小二乘回归 oracle 的最优 O( 调用。如果 T ,oracle 调用的数量可以进一步减少到 O(log log T ) 值得注意的是,这可以理解为对以前工作的“三倍指数”改进:(i) 与之前已知的 Agarwal 等人 (2012) 的遗憾最优算法相比,该算法需要在每一轮中枚举 F ,我们的算法仅通过最小二乘回归预言机访问函数类,因此通常避免了每轮的指数计算成本;(ii)与 p e KT / log |F| 相比)Agarwal 等人的基于分类预言机的算法 . (2014)需要 O( 调用计算成本高的分类预言机,我们的算法只需要 O(log T ) 调用简单的回归预言机,这意味着与现有可证明最优的预言机相比,指数级改进(预言机调用的数量)- 高效的算法,即使我们忽略回归和分类预言机之间的差异;(iii)当提前知道轮数 T 时,我们的算法可以进一步减少预言机调用的次数到 O(log log T ),即本身就是指数级的改进。 因此,我们的算法非常实用; 与现有工作的详细比较见表 1。
然后,我们将上述所有结果扩展到一般设置,其中 (i) 函数类 F 可以是无限的,并且 (ii) 离线回归预言机不一定是最小二乘预言机。
对于这个一般设置,我们的简化可以表述如下:对于任何函数类 F,给定一个具有任意离线估计误差(或超额风险)保证的任意离线回归预言机,我们提供了一种快速简单的上下文老虎机算法,其遗憾可以 受离线估计误差的函数限制,仅通过 O(log T ) 调用(或 O(log log T ) 调用,如果 T 已知)到离线回归 oracle。 我们表明,只要离线回归预言机在统计上是最优的,我们的算法就在统计上是最优的。 值得注意的是,上述结果提供了一个通用且最优的“转换器”,从具有通用函数类的离线回归结果到具有通用函数类的上下文老虎机的结果。 这导致改进的算法对许多现有的上下文老虎机问题具有更严格的遗憾界限,以及许多新的上下文老虎机问题的实用算法,例如,具有某些类型神经网络的上下文老虎机,以及具有重尾奖励的上下文老虎机。
对我们算法的分析特别有趣。 与文献中对其他基于可实现性的算法的现有分析不同,我们不直接分析我们算法的决策结果——相反,我们发现我们的算法的双重解释是在所有(可能不正确的)策略上按顺序保持密集分布,其中 策略被定义为将上下文映射到操作的确定性决策函数。 我们分析了可实现性假设如何使我们能够为通用政策空间中的一些隐含量建立统一收敛型结果,而不管通用政策空间的容量如何。 请注意,虽然双重解释本身在通用策略空间中不容易计算,但它是仅用于分析目的,与我们原始算法的实现无关。 通过这个镜头,我们发现我们的算法的双重解释满足最佳上下文老虎机学习的一系列充分条件。 我们在 Dudik 等人的先前工作的基础上确定了在通用政策空间中进行最佳上下文老虎机学习的充分条件。 (2011),阿加瓦尔等人。 (2012)和阿加瓦尔等人。 (2014) — 第一篇因其复杂性而被其作者通俗地称为“怪物论文”,第三篇因其提高了计算效率而被其作者称为“驯服怪物”。 由于我们的算法以完全隐式的方式在通用策略空间中实现了遗憾最优性所需的所有条件(这意味着无需显式计算即可自动满足所有要求),与以前的工作相比,我们的算法显着降低了计算成本(感谢 到可实现性假设),因此我们将我们的论文命名为“绕过怪物”。 总体而言,我们的算法快速而简单,而且我们的分析相当笼统。 我们相信该算法具有大规模实施的潜力,我们的分析可能有助于更深入地理解上下文强盗。 我们将在本文的其余部分详细介绍。
1.2 Learning Model
一般的随机上下文老虎机问题可以表述如下。 设 A 是 K 个动作的有限集合,X 是任意上下文空间(例如,特征空间)。 学习者与自然之间的交互发生在 T 轮中,其中 T 可能是未知的。 在每一轮 t 中,自然会根据固定但未知的(联合)分布 D 对上下文 x t ∈ X 和上下文相关的奖励向量 r t ∈ [0, 1] A 进行采样,其中分量 r t (a) 表示对行动的奖励 a ∈ A ; 学习者观察 x t ,选择一个动作 a t ∈ A ,并观察她的动作 r t (a t ) 的奖励。
值得注意的是,学习者的奖励 r t (a t ) 取决于上下文 x t 和她的动作 a t ,并且是对完整奖励向量 r t 的部分观察。 根据是否存在关于自然奖励模型的假设,先前的文献研究了两种不同但密切相关的背景强盗问题。
不可知论的设置 令 Π ⊂ A X 是一类将上下文 x ∈ X 映射到动作 a ∈ A 的策略(即决策函数),并且 π ∗ = arg max π∈Π E (x,r)∼D [r(π(x ))] 是 Π 中最大化期望奖励的最优策略。 学习者的目标是与(同类)最优策略 π ∗ 竞争,并在 T 轮后最小化她的(经验累积)遗憾,其定义为
()
上述设置被称为不可知论,因为它没有对自然施加任何假设。
可实现的设置 设 F 是一类预测变量(即奖励函数),其中每个预测变量是一个函数 f : X × A → [0, 1] 试图逼近由 f ∗ (x, a) = 定义的真实奖励函数 f ∗ E[r t (a) | x t = x], ∀ x ∈ X , a ∈ A 。 标准的可实现性假设(Chu et al. 2011, Agarwal et al. 2012, Foster et al. 2018)如下:假设 1(可实现性)。 真正的奖励函数包含在 F 中,即 f ∗ ∈ F 。
给定一个预测变量 f ∈ F ,相关的奖励最大化策略 π f 总是选择具有最高预测奖励的动作,即 π f (x) = arg max a∈A f (x, a)。 学习者的目标是与全局最优策略 π f ∗ 竞争,并在 T 轮后最小化她的(经验累积)遗憾,定义为
()
上述设置被称为可实现的,因为它假设自然可以由 F 中的预测器很好地指定。 在本文中,我们考虑一个通用的 F ,它可以是一类参数函数、非参数函数、回归树、神经网络等。
我们从纯建模的角度对上述两种设置做一些评论。 首先,不可知设置不需要可实现性,并且比可实现设置更通用。 实际上,给定任何函数类 F,可以构造一个诱导策略类 Π F = { π f | f ∈ F } ,因此任何可实现的上下文强盗问题都可以简化为不可知的上下文强盗问题。
其次,可实现性设置有其自身的优点,因为额外的可实现性假设能够提供更强的性能保证:一旦可实现性假设成立,学习器的竞争策略 π f ∗ 保证是全局最优的(即,没有策略可以比 ∗ ),因此小的遗憾必然意味着大的总奖励。 相比之下,在与不可实现性无关的设置中,如果在 Π 之外有明显更有效的策略,那么“Π 中的最优策略”不一定是有效的策略。 第 1.3 节将提供两种设置之间关于理论易处理性、计算效率和实际可实施性的更多比较。
1.3 Related Work
上下文强盗已经被广泛研究了二十年。 有关详细调查,请参阅 Lattimore 和 Szepesvári (2020) 的第 5 章和 Slivkins (2019) 的第 8 章。 这里我们提到一些重要且密切相关的工作。
1.3.1 不可知论方法 在不可知论设置中研究上下文强盗的论文旨在设计通用且计算上易于处理的算法,这些算法可证明对任何给定的策略类 Π 有效,同时避免枚举 Π 的计算复杂性(因为 Π 的大小通常非常大 )。 先前文献的主要焦点是一般有限Π的情况,因为这是进一步研究无限(参数或非参数)的起点 Π。 对于这种情况,EXP4 系列算法 (Auer et al. 2002, McMahan and Streeter 2009, p Beygelzimer et al. 2011) 实现了最优 O( KT log | Π | ) 遗憾但需要 Ω( | Π | ) 运行时间 在每一轮,这使得算法对于大 Π 难以处理。 为了规避 Ω( | Π | ) 运行时间障碍,研究人员(例如,Langford 和 Zhang 2008、Dudik 等人 2011、Agarwal 等人 2014)将他们的注意力限制在仅访问策略空间的基于预言机的算法上 通过离线优化预言机——特别是离线成本敏感分类预言机,
(1)
对于任何给定的上下文和奖励向量序列 (x 1 , r̃ 1 ), · · · , (x t , r̃ t ) ∈ X × R A + 。 oracleefficient 算法是指一种算法,其 oracle 调用的次数在 T 轮中为多项式。
第一个可证明的最佳预言机效率算法是 Dudik e 6 的随机 UCB 算法调用成本敏感分类等。 (2011),它用 O(T oracle 实现了最优后悔。ILOVETOCONBANDITS 算法在 p e KT / log | Π | 的著名工作中取得了突破。
阿加瓦尔等人。 (2014),其中oracle调用的数量显着减少到O(上述结果在理论上令人着迷,因为它们能够从上下文强盗到成本敏感分类的“在线到离线减少”,这是非常重要的 对于一般的在线学习问题。然而,由于上述算法依赖于成本敏感的分类预言(1),因此上述算法的实用性受到严重限制,因为即使对于简单的策略类,这项任务在计算上也很棘手(Klivans and Sherstov 2009, Agrawal 和 Devanur 2016),通常涉及解决 NP 难题。因此,上述基于分类预言的算法的实际实现通常采用启发式算法(Agarwal et al. 2014, Bietti et al. 2018)。此外, 上述算法需要大量内存:因为它们必须将数据集的增强版本(而不是数据集的原始版本)提供给 oracle,所以它们必须反复创建辅助 数据并将它们存储在内存中。 因此,这些方法在实践中可能表现不佳(Bietti et al. 2018),并且对于大规模的实际部署通常不切实际(Foster et al. 2018, Foster and Rakhlin 2020)。
1.3.2. 基于可实现性的方法 与研究主要集中在设计适用于任何给定 Π 的通用算法的不可知论设置相比,可实现性设置中的大多数研究倾向于设计适用于特定参数化 F 系列的专用算法 . 可实现设置的两个主要策略是置信上限(例如,Filippi 等人 2010、Abbasi-Yadkori 等人 2011、Chu 等人 2011、Li 等人 2017、2019)和 Thompson 抽样(例如, Agrawal 和 Goyal 2013,Russo 等人 2018)。
虽然这些方法在几种情况下都取得了实际成功(Li et al. 2010),但它们的理论保证和计算易处理性严重依赖于他们对 F 的强假设,这限制了他们在其他场景中的使用(Bietti et al. 2018)。
据我们所知,Agarwal 等人。 (2012) 是第一篇在最小可实现性假设下研究具有一般有限 F 的上下文老虎机的论文。 他们提出了一个基于消除的 p e KT log |F| ) 后悔。 一种称为回归器消除的算法,它实现了最优 O( 但是,他们的算法计算效率低,因为它枚举整个函数类并且在每一轮都需要 Ω( |F| ) 计算成本(请注意,F 的大小通常是 Agarwal et al. (2012) 的计算问题由 Foster et al. (2018) 解决,他们提出了一种预言机高效的上下文强盗算法 RegCB,它总是通过加权最小二乘回归预言机访问函数类 解决了
(2)
对于任何给定的输入序列 (w 1 , x 1 , a 1 , y 1 ), · · · , (w t , x t , a t , y t ) ∈ R + × X × A × R. As Foster et al.
(2018)提到,上述预言通常可以有效地解决,并且在机器学习实践中非常普遍——它比成本敏感的分类预言(1)要合理得多。 然而,与回归器消除不同,RegCB 算法不是极小极大最优——它的最坏情况 p e )。 对于一个遗憾,最优 O( e KT log |F| ) 遗憾是否可以达到 Ω(T 基于离线回归预言机的算法在文献中仍然未知。
最近,Foster 和 Rakhlin (2020) 提出了一种算法,该算法使用在线回归预言机实现上下文强盗的最佳后悔。 他们的算法,称为 SquareCB,建立在 Abe 和 Long (1999) 的 A/BW 算法(另见期刊版本 Abe 等人 2003)的基础上,最初是为线性上下文强盗开发的——具体来说,SquareCB 取代了在 A/BW 算法由一个通用的在线回归预测器,然后遵循与 A/BW 算法相同的概率动作选择策略。 Foster 和 Rakhlin (2020) 表明,通过使用这种简单的策略,上下文强盗可以以黑盒方式简化为在线回归。 虽然上下文强盗并不比在线回归更难的暗示是重要且富有洞察力的,但具有一般函数类本身的在线回归是一个具有挑战性的问题。 请注意,在线回归预言机必须为自适应对手生成的任意数据序列提供稳健的保证,当函数类 F 很复杂时,这可能会导致实现困难——而有一个很好的理论来描述在线回归的极小最大后悔率 通用函数类(Rakhlin 和 Sridharan 2014),据我们所知,计算高效算法仅适用于特定函数类。
例如,考虑一般有限 F 的情况,Rakhlin 和 Sridharan (2014) 给出的在线算法实际上在每一轮都需要 Ω(|F|) 计算成本。 因此,除了 Foster 和 Rakhlin (2020) 的现有结果之外,非常需要从上下文老虎机到离线回归的更彻底的“在线到离线减少”。
1.4 Technical Challenges and Our Approach
在我们继续展示我们的结果之前,我们想说明使用离线回归预言机来实现上下文强盗的最佳遗憾的关键技术障碍。 然后,我们将简要解释我们的方法如何克服这些技术障碍。
如前所述,Agarwal 等人的三篇优秀论文。 (2012),福斯特等人。 (2018)、Foster 和 Rakhlin (2020) 在通过回归方法解决上下文强盗方面取得了重要进展。 了解现有结果与我们期望的结果之间的差距对于了解关键技术障碍很重要。 下面我们讨论三个挑战。
计算障碍 阿加瓦尔等人。 (2012)为具有一般有限 F 的上下文老虎机提出了一种可证明最优但计算效率低的算法。 在每一轮 t 中,他们的算法基于逐次消除来维护一个子集 F t ⊂ F 并解决 F t 上的复杂优化问题。 在这里,使用离线回归预言机的主要困难在于,不能将 F t 上的复杂优化问题重新表述为像最小二乘回归这样的简单优化问题,因为目标函数远比平方和复杂得多。
这也是为什么使用平方损失回归预言机比使用离线成本敏感分类预言机更具挑战性的原因(1)——可以将后者理解为 0-1 损失预言机。
与构建置信界限相关的统计障碍 福斯特等人。 (2018)提出了一种使用离线加权最小二乘预言的计算效率高的基于置信度的算法。 然而,他们的算法只有在一些强分布假设下才有统计保证。 一个重要的原因是基于置信区间的算法通常依赖于在每个上下文中构建收缩置信区间的能力。 虽然这对于像线性类这样的简单 F 是可能的,但对于一般的 F 是不可能的。 在这里,困难源于这样一个事实,即所有具有一般 F 的离线回归的统计学习保证都需要一个对上下文的期望。 换句话说,对于离线回归预言机来说,有效的基于上下文的统计保证通常是不可能的。
与分析相关动作相关的统计障碍 Foster 和 Rakhlin (2020) 提出了一种最优且高效的上下文老虎机算法,假设访问在线回归预言机,这与离线回归预言机完全不同。 从统计上看,离线和在线回归预言机之间的区别在于,离线回归预言机只假设 i.i.d 的统计保证。 数据序列(关于我们对一般离线回归预言机的定义,请参见第 3 节),而在线回归预言机则为可能由自适应对手生成的任意数据序列假设统计保证。 显然,访问在线回归预言机是比访问离线回归预言机更强的假设。 正如 Foster 和 Rakhlin (2020) 所提到的,他们的算法需要在线回归预言机,因为“分析严格地使用了(在线回归预言机的)遗憾界在动作 a 1 时成立,. . . , 一个 T 是自适应地选择,因为 SquareCB 使用在前几轮中选择的动作来确定后几轮的动作分布。” 也就是说,在这里使用离线回归预言机的技术障碍是算法的动作序列不是 i.i.d. ——因为离线回归预言机是为 i.i.d. 设计的。 数据,当一个人只能访问离线回归预言机时,如何处理依赖行为尚不清楚。 我们注意到,这个障碍是“探索利用权衡”的核心——本质上,任何有效算法的行为都必须高度依赖,因为它们同时用于探索和利用。
1.4.1 我们的解决方案 我们以一种令人惊讶的优雅方式解决了第 1.4 节中的三个技术障碍。 具体来说,我们推导出一种算法,该算法以一种非常“幼稚”的方式访问离线回归预言机,无需构建任何明确的优化问题或置信界限,从而同时绕过前两个障碍; 此外,我们通过建立一个框架来分析我们的算法并证明其统计最优性来克服第三个障碍——特别是,我们面临不断演变的依赖动作的复杂动态,但通过不同的视角分析它们(第 4 节中的“双重解释” ),并为在这个镜头下的最优上下文老虎机学习建立一系列充分条件。 最终的算法很简单,但其背后的思想相当深刻,并得到了新颖分析的支持。 算法细节将在第 2 节和第 3 节中介绍,关键思想将在第 4 节中解释。
我们的方法建立在(并揭示了)上下文强盗文献中的两条研究线之间的联系:(i)在不可知论环境中使用(看似不可避免的)分类预言的最佳上下文强盗学习的著名理论,由 Dudik 等人代表。 (2011 年)(“怪物论文”)和 Agarwal 等人。 (2014)(“驯服怪物”); (ii) 一种简单的概率选择策略,将行动的预测奖励映射到行动的概率,由 Abe 和 Long (1999) 开创(另见 Abe 等人 2003)并由 Foster 和 Rakhlin (2020) 扩展。 特别是,我们重新思考了 Dudik 等人背后的哲学。 (2011)和阿加瓦尔等人。 (2014),用我们自己对可实现性价值的理解对其进行改造,提出了在可实现性下“绕过”分类预言的新思路——我们的算法本质上就是这个新思路的结果; 见第 4.6 节。 有趣的是,我们的推导算法实际上使用了与 Abe 和 Long (1999) 以及 Foster 和 Rakhlin (2020) 基本相同的概率选择策略——这令人惊讶,因为我们的算法推导背后的想法与背后的想法大不相同 Abe 和 Long (1999) 以及 Foster 和 Rakhlin (2020)。 这表明这种简单的概率选择策略可能比以前理解的更有趣和更重要,并且我们认为值得强盗社区进一步关注。 我们希望我们的工作与 Abe 和 Long (1999) 以及 Foster 和 Rakhlin (2020) 一起,能够就如何理解这一战略提供不同的视角。
最后,我们强调,与我们上面提到的每条研究路线相比,我们的方法有超越它们的新贡献,这似乎是我们的论点成立所必需的。
我们将在本文的其余部分详细说明这些新贡献
1.5 Organization and Notations
本文的其余部分安排如下。 出于教学原因,我们首先在第 2 节中介绍一般有限 F 的情况下的结果,其中我们介绍了我们的算法并陈述了它的理论保证。 在第 3 节中,我们将结果扩展到一般环境并讨论几个重要的后果。 在第 4 节中,我们展示了我们的遗憾分析并解释了我们算法背后的想法。
我们在第 5 节结束我们的论文。我们结果的所有证明都推迟到附录中。
e · ) 隐藏 polylog(T ) 因子。
在整篇论文中,我们使用 O( · ) 来隐藏常数因子,并且 O( 给定 D ,让 D X 表示 X 上的边际分布。我们使用 σ(Y ) 表示由随机变量 Y 生成的 σ 代数,并且 使用 B (E) 表示集合 E 上的 Borel σ-代数。动作选择核 p : B ( A ) × X → [0, 1] 被定义为概率核,使得 p(a | x) 指定 选择动作 a ∈ A 给定上下文 x ∈ X 的概率;设 P 是所有动作选择核的空间。我们用 N 表示所有正整数的集合,用 R + 表示所有非负实数的集合 不失一般性,我们假设 |F| ≥ 4。

2 Algorithm and Guarantees

在之前的工作(Dudik et al. 2011, Agarwal et al. 2012, 2014)之后,我们从一般有限 F 的情况开始,因为这是进一步研究无限 F 的起点。 对于这种情况,p e KT log |F| ) 对总数感到遗憾,“黄金标准”是一种算法,它实现了 O( 的预言机调用在 T 中是多项式/次线性的(参见 Agarwal 等人 2012 年,福斯特等人 2018 年)。至于预言机,我们假设访问 到以下解决的最小二乘回归预言
(3)
对于任何输入序列 (x 1 , a 1 , y 1 ), · · · , (x t , a t , y t ) ∈ X × A × [0, 1]。 不失一般性 1 ,我们假设 oracle (3) 总是为两个相同的输入序列返回相同的解决方案。 请注意,上述最小二乘预言 (3) 是一个具体的优化预言,并且比 Foster 等人假设的加权预言 (2) 更简单。 (2018),因为它不需要考虑权重。
我们注意到我们的减少不限于此设置——在第 3 节中,我们将把所有结果扩展到 F 和离线回归预言都是通用的一般设置。 尽管如此,上述设置还是很好地说明了我们的结果,并允许直接与“黄金标准”进行比较。
2.1 The Algorithm
我们在算法 1 中展示了我们的算法“FAst Least-squares-regression-oracle CONtextual bandits”(FALCON)(该算法的通用版本将在第 3 节中提供)。 该算法非常简单,并遵循与 Abe 和 Long (1999) 的 A/BW 算法以及 Foster 和 Rakhlin (2020) 的 SquareCB 算法相同的通用模板,主要区别在于使用不同的预言机生成预测。 我们还添加了一些有用的成分,包括 epoch 时间表和不断变化的学习率。 请参阅下面的算法描述。
算法1
我们的算法在一个 epoch 调度中运行以减少预言机调用,即它只在某些预先指定的轮次 τ1、τ2、τ3、… 调用预言机。 . . . 对于 m ∈ N,我们将从 τ m−1 + 1 到 τ m 的轮次称为 epoch m。 作为一个具体的例子,考虑 τ m = 2 m ,然后对于任何(可能未知的) T ,我们的算法在 O(log T ) 时期内运行。 作为另一个例子,当 T 已知时,考虑 τ m = j k −m 2T 1−2 ,那么我们的算法在 O(log log T ) 时期内运行。 我们允许非常通用的时期时间表; 特别是,更频繁地调用预言机不会影响后悔分析。
在每个 epoch m 开始时,我们的算法进行两次更新。 首先,它更新(epochp 变化的)学习率 γ m ’ Kτ m−1 / log(|F| /δ),旨在在探索和利用之间取得平衡。 其次,它从 F 计算一个“贪婪”预测器 f b m ,它最小化 P τ m-1 经验平方损失 t=1 (f (x t , a t ) - r t (a t )) 2 。 这个预测器可以通过对离线最小二乘回归 oracle 的单个调用 P τ m−1 来计算——值得注意的是,min f ∈F t=1 (f (x t , a t ) − r t (a t )) 2 几乎是最好的方法 我们可以想象我们的预言机被调用,没有生成增强数据,没有维护权重,也没有构建额外的优化问题。
时期 m 中的决策规则则完全由 γ m 和 f b m 确定。 对于 epoch m 中的每一轮 t,给定上下文 xt,算法使用 f b m 预测每个动作的奖励并找到使预测奖励最大化的贪婪行为。 然而,该算法并不直接选择 b a t — 相反,它根据概率选择策略随机化所有动作,该策略选择除 b a t 之外的每个动作,其概率大致与预测它与 b a t 相比的差多少成反比,以及 与学习率 γ m 大致成反比。 这种策略的效果是双重的。 首先,在每一轮中,通过为贪婪动作分配最高概率,并为每个非贪婪动作分配与预测的奖励差距大致相反的概率,我们确保预测的动作越好,它被选中的可能性就越大。 其次,在不同的时期,通过控制非贪婪动作的概率与逐渐增加的学习率γ m 大致相反,我们确保算法在学习率较小的开始轮“探索更多”,并逐渐“利用 更多”在后面的轮次中学习率变得更大——这就是为什么我们将学习率视为探索和利用之间的顺序平衡器。
算法组件和与文献的比较。 FALCON 是一个非常简单的算法,可以看作是三个算法组件的组合:(i) epoch schedule,(ii) 离线最小二乘回归 oracle 的贪婪使用,以及 (iii) 映射的概率选择策略 奖励对动作概率的预测,由时代变化的学习率控制。 虽然文献中单独的每个组件都不是新的,但文献中并未考虑上述三个组件的组合,而且这种特定组合是否有效还远非显而易见。 事实上,如此简单的算法能很好地适用于一般的上下文强盗,这是相当令人惊讶的。 虽然这个算法肯定比表面上看到的更多(我们将在第 4.5 节和第 4.6 节中解释 FALCON 背后的基本思想),让我们首先对组件 (ii) 和 (iii) 进行一些快速评论,并比较它们 对现有文献。
我们从组件 (iii) 开始。 正如我们之前提到的,通过“与间隙成反比”的规则将预测的动作奖励映射到动作概率的想法并不新鲜:这种概率选择策略首先由 Abe 和 Long (1999) 在他们的线性研究中提出 上下文强盗,最近被 Foster 和 Rakhlin (2020) 采用,用于将上下文强盗简化为在线回归。 与 Abe 和 Long (1999) 以及 Foster 和 Rakhlin (2020) 中使用的现有策略相比,我们这里使用的策略有一个显着的区别:而上述两篇论文采用了一个恒定的学习率 γ,在运行过程中不会发生变化 在他们的算法过程中,我们呼吁随着我们算法的进行而逐渐增加的时代变化(或时变)学习率 p γ m ’ Kτ m−1 / log( |F| /δ)。 这种随时间变化的学习率在我们的统计分析中起着重要作用,因为我们的遗憾保证的证明依赖于一个归纳论证,该论证要求学习率随着时间的推移而仔细变化并逐渐增加; 见第 4.4 节。
评论。 当预先知道 T 并且预言机调用足够“频繁”时,这样的时代变化学习率是不必要的,但时代变化的学习率给算法带来了一定的好处:首先,在未知 T 的情况下,它 是必须的; 其次,在已知 T 的情况下,每当试图控制 o(log T ) 内的预言机调用总数时,它都是必要的(在这种情况下,固定的学习率可能会导致次优遗憾); 第三,在我们的分析中,它总是导致更严格的遗憾界限,更好地依赖对数因素。 结果,似乎在我们的问题中,一个时代变化的学习率总是支配一个固定的学习率。
我们算法的组件 (ii) 特别有趣。 事实上,我们的算法以一种非常简单和直接的方式进行预测:它总是选择贪婪的预测器并将其直接应用于上下文而不进行任何修改——也就是说,就进行预测而言,该算法是完全贪婪的。 这似乎与基于贪婪预测的算法通常是次优的传统观点相矛盾(例如,Langford 和 Zhang 2008),并且与之前的基于消除的算法(例如,Dudik 等人 2011,Agarwal 等人)形成鲜明对比。 2012)和基于置信区间的算法(例如,Abbasi-Yadkori et al. 2011, Chu et al. 2011)在强盗文献中无处不在,它们花费大量精力和计算资源来维护复杂的置信区间、版本空间或 预测变量的分布。 即使考虑与我们相似的 Abe 和 Long (1999) 以及 Foster 和 Rakhlin (2020) 的算法,我们也会发现它们对更稳健的预测器具有吸引力:Abe 和 Long (1999) 对“Widrow- Hofff 预测器”(相当于在线梯度下降预言机)和 Foster 和 Rakhlin(2020)诉诸一般在线回归预言机。 他们的分析都严重依赖于他们的预言机的在线性质,即预言机可以有效地减少对适应性对手的后悔——本质上,这意味着关于勘探开发权衡的一部分繁重工作由 在线预言机,而不是算法。 虽然看似违反直觉,但我们声称做出“幼稚”的贪婪预测足以实现最佳的上下文老虎机学习,这意味着我们的预言机根本不关心探索-利用之间的权衡。 这一令人惊讶的发现表明,对我们算法的严格分析应该包含一些超越现有强盗文献的新想法。 事实上,我们将在第 4 节中对我们的算法进行非常有趣的分析,这在概念上似乎是新颖的。
评论。 对离线预言机和在线预言机之间的区别感兴趣的读者可以将本文中的遗憾分析方法与 Abe 和 Long(1999)以及 Foster 和 Rakhlin(2020)的方法进行比较。 Abe 和 Long (1999) 以及 Foster 和 Rakhlin (2020) 的分析本质上是逐轮分析:在每一轮中,瞬时赌博机遗憾的上限是瞬时在线回归遗憾的上限,不同轮之间没有共享结构,所以 最后的遗憾界限来自对所有轮次进行求和。 相比之下,我们的分析必须处理不同轮次的共享结构,即,我们必须弄清楚早期轮次中发生的探索如何有益于后期轮次的利用。
2.2 Theoretical Guarantees
我们展示了简单的算法 FALCON 享有强大的性能保证。
统计最优性。 定义 m(T ) := min { m ∈ N : T ≤ τ m } ,这是算法 1 执行的 epoch 总数。 算法 1 的遗憾保证在定理 1 中说明。
证明推迟到附录 A。我们将在第 4 节中详细阐述分析的关键思想。
定理 1. 考虑一个 epoch 时间表,使得 τ m ≤ 2τ m−1 ,∀ m > 1 和 τ 1 ≤ 2。令 c = 1/30。
对于任意 T ∈ N,至少有 1 − δ 的概率,算法 1 在 T 轮后的遗憾最多为
()
当 τ m = 2 m 时,上述上限是 Agarwal 等人的遗憾上限中的 O √ ous log T 因子。 (2012)(通过低效算法获得),并与 Agarwal 等人证明的下限相匹配。 (2012) 达到一个常数或 √ log log T 因子。 FALCON 算法因此在统计上是最优的。
计算效率。 考虑 epoch schedule τ m = 2 m , ∀ m ∈ N。对于任何可能未知的 T ,我们的算法在 O(log T ) epoch 中运行,并且在每个 epoch 我们的算法只调用一次预言机。 因此,我们算法的计算复杂度是 O(log T) 在所有 T 轮中调用最小二乘回归预言(加上每轮 O(K) 的额外成本)。 与现有算法相比,这导致潜在的 p e KT / log(|F| /δ)) 优势。 请注意,ILOVETOCONBANDITS 需要 O( 调用离线成本敏感分类预言机,SquareCB 需要 O(T ) 调用在线回归预言机 - 与我们的算法相比,它们都需要大量调用更难实现的预言机( 就一般有限 F 而言)。此外,由于一般有限 F 不是凸函数类,因此 RegCB 需要 O(T 3/2 ) 调用此设置的加权最小二乘回归 oracle - 这也很多 比我们的算法慢。
当学习者知道总轮数 T 时,我们可以使 FALCON 的计算成本 j k -m 更低。 对于任何 T ∈ N,考虑一个 epoch schedule τ m = 2T 1−2 , ∀ m ∈ N(类似于 Cesa-Bianchi et al. 2014)。 然后 FALCON 将在 O(log log T ) 周期内运行,在 T 轮中调用 oracle 仅 O(log log T) 次。 在这种情况下,我们仍然有相同的遗憾保证(最多 log log T 因子); 见下面的推论 1。 证明见附录 A.6。
推论 1. 对于任何 T ∈ N,考虑一个 epoch schedule τ m = 2T 1−2 , ∀ m ∈ N 并让 c = 1/30。 在概率至少为 1 - δ 的情况下,算法 1 在 T 轮后的遗憾最多为
()

3 General Offline Regression Oracles

我们现在将结果扩展到 F 是通用的(可能是无限的)的一般设置。 虽然我们仍然可以像以前一样假设最小二乘回归预言(对应于离线监督学习中平方损失下的经验风险最小化(ERM)过程),但对于不同的 F ,一些其他类型的离线回归过程(例如,正则化最小二乘 像 Ridge 和 Lasso 或逻辑回归)可能是首选。 此外,即使对于首选最小二乘回归的函数类,人们也可能不想精确地解决平方损失最小化问题,并且可能首选允许优化误差的预言机。 因此,在本节中,我们以更一般的方式陈述我们的结果:我们假设访问具有通用统计学习保证的任意离线回归预言机,并设计一种算法来调用该任意预言机并利用其统计学习保证。 回想一下,本文的目标是完成从上下文强盗到离线回归的在线到离线减少。 因此,最终,我们希望提供一个通用且最优的“离线到在线转换器”,这样现有的具有通用函数类的监督学习机制可以自动转换为具有通用函数类的上下文老虎机。
在下文中,我们将介绍一般离线回归预言机的概念。
给定一个通用函数类 F ,一个与 F 相关的通用离线回归预言,用 OffReg 表示,被定义为基于输入 F 2 数据和 F 生成预测器 f b : X × A → R 的过程(注意 f b 不需要 在 F 中)。 在统计学习理论中,f b 的质量通常通过其“样本外误差”来衡量,即它在随机和看不见的测试数据上的预期误差。 我们对 OffReg F 的统计学习保证做出以下一般假设。
假设 2. 设 p 为任意动作选择核(定义见 § 1.5)。 给定 n 个形式为 (x i , a i ; r i (a i )) 的训练样本,根据 (x i , r i ) ∼ D , a i ∼ p( · | x i ) 独立且相同地绘制,离线回归 oracle OffReg 返回一个预测变量 f b : X × A → R。
F 对于任何 δ > 0,概率至少为 1 - δ,我们有
()
离线学习保证 E F ,δ (n) 是一个随 n 减小的函数,它限制了测试数据上 f b 和 f ∗ 之间的平方 L 2 距离(从与训练数据相同的分布中生成)。 在可实现性(即 f ∗ ∈ F )下,这个平方距离对应于 f b 的估计误差或超额风险(在平方损失下,或更广泛地说,强凸损失 3 )。 注意表征急剧的估计误差/过度风险界限并设计有效的算法来达到这种界限是统计学习中最核心的任务之一。
上述离线回归预言机的概念虽然非常自然,但在上下文强盗文献中似乎是新的。 特别是,它不仅限于最小二乘预言机(因此得到更广泛的应用),而且它比 Foster 和 Rakhlin (2020) 的在线回归预言机更容易实现,后者必须处理由自适应对手生成的序列数据 . 事实上,任何满足 Foster 和 Rakhlin (2020) 要求的预言机都可以轻松转换为满足我们假设 2 的预言机。
将上下文强盗减少到上述一般的离线回归预言机带来了许多重要的优势,这些优势将在我们的减少提出后进行讨论; 见第 3.2 节。
3.1 Algorithm and Guarantees
我们在算法 2 中提供了一种称为 FALCON+ 的算法。算法 2 和算法 1 的主要区别在于步骤 2 和步骤 3。在步骤 2 中,我们基于 OffReg 的离线学习保证定义了一个新的时代变化学习率 F——这是算法 1 中定义的学习率的直接概括。在步骤 3 中,我们不将所有先前的数据输入到预言机中,而是只将第 m-1 时期的数据输入到预言机中。 我们在这里发表两条评论。 首先,虽然我们不再将所有先前的数据输入到预言机中,但这仍然是对离线预言机的贪婪调用,因为我们在这一步中没有考虑任何探索。 其次,仅将最后一个时期的数据输入预言机的策略纯粹是出于技术原因(即假设 2 需要 i.i.d. 数据),因为我们希望避免对鞅进行更复杂的讨论。 请注意,由于这种策略,我们的算法必须在逐渐增加的 j k -m 个时期中运行,例如,τ m = 2 m 或 τ m = 2T 1-2 。
回想一下,m(T) 是算法 2 执行的 epoch 总数。 算法 2 的遗憾保证在定理 2 中说明。定理 2 的证明推迟到附录 A。
定理 2. 考虑一个 epoch 调度,使得 m ≤ m(T ) 时 τ m ≥ 2 m 并且让 c = 1/2。
不失一般性,假设γ 1 ≤···≤γ m(T ) 。 对于任意 T ∈ N,至少有 1 − δ 的概率,算法 2 在 T 轮后的遗憾最多为
(4)
上述遗憾界是一般性的,它通常具有与 O p K E F ,δ/ log T (T )T 相同的比率。
因此,给定一个具有任意估计误差保证 p E F ,δ ( · ) 的任意离线回归预言机,我们知道我们算法的遗憾上限为 O K E F ,δ/ log T (T )T。
算法2
示例 1(FALCON+ 的统计最优性)。 考虑一个一般的、潜在的非参数函数类 F,其经验熵为 O(ε -p ),对于某个常数 p > 0,∀ ε > 0。
Yang 和 Barron (1999) 以及 Rakhlin 等人。 (2017)提供了几个离线回归预言,它们实现了最佳的 E F (n) = O(n -2/(2+p) ) 估计错误率。 通过让 τ m = 2 m for m ∈ N, 1+p FALCON+ 的遗憾上限为 O(T 2+p log T ) 当忽略对 1+p e 2+p ) 的依赖时,Foster 证明了下限 和 Rakhlin (2020),我们知道只要离线回归预言机是速率最优的,K. 结合 Ω(T FALCON+ 就是速率最优的。因此,我们实现了从上下文强盗到离线回归的普遍和最优的减少。我们 请注意,上述结果还有助于用一般的、潜在的非参数 F 来表征随机上下文强盗的极小最大后悔率。请注意,Foster 和 Rakhlin (2020) 在张量化假设下已经提供了这样的表征(详见他们的第 3 节) )。
1+p 我们删除了这个假设,因为我们的定理 2 隐含的 O(T 2+p log T ) 上限恢复了 Foster 和 Rakhlin (2020) 的定理 3,而不假设张量化。
示例 2(线性上下文强盗)。 考虑 Chu 等人的线性上下文强盗设置。 (2011)具有随机背景。 这对应于将 F 设置为线性类
()
其中 x = (x a ) a∈A , x a ∈ R d 和 k x a k 2 ≤ 1。在这种情况下,通过使用最小二乘回归 oracle,p FALCON+ 实现了后悔 O( KT (d + log T ))。 与最知名的上限相比Li等人的这个问题,poly(log log KT)O(T d log T log K)。 (2019),FALCON+ 的遗憾界对 K 的依赖性更差(这似乎来自所采用的采样策略),但节省了 √ 一个 log T 因子,这意味着当 K << 吨。 据我们所知,这是算法第一次在这个问题的 Ω( T d log T ) 障碍上获得 √ — 值得注意的是,我们的新上限甚至“打破”了 √ Ω( T d log T log K) Li 等人证明的下限。 (2019)。 这里需要注意的是,李等人。 (2019)研究了一个不经意的对手选择上下文的设置,而我们正在考虑√上下文是随机的设置。 我们发现对于具有随机上下文的线性上下文强盗不存在 Ω( T d log T ) 障碍是非常有趣的。
示例 3(具有神经网络的上下文强盗)。 为神经网络推导可证明的性能保证是一个活跃的研究领域。 在这里,我们使用 Farrell 等人的最新结果。 (2021)来说明如何将深度神经网络的估计误差范围转化为上下文强盗。 具体来说,让 F = G K , G 是多层感知器 (MLP) 的类别,如 Farrell 等人的第 2.1 节所述。 (2021),并且 f ∗ (x, a) = g a ∗ (x) 对于 x ∈ X , a ∈ A 。
∗ 位于 Sobolev 球中,假设 D X 是 [ − 1, 1] d 和 g 1 上的连续分布 ∗ , 。 . . , g K 平滑度 β ∈ N。由 Farrell 等人的定理 1。 (2021),深度 MLP-ReLU 网络估计器 β β+2d e − β+d ) 估计误差。 因此,FALCON+ 通过使用这个达到 O(n 的估计量作为离线回归预言机得到了 O(T e 2β+2d ) 遗憾(我们这里省略了对 K 的依赖)。上面的结果是新的,但不能直接与现有的结果进行比较 关于“神经上下文强盗”(例如,Zhou et al. 2020),因为模型假设非常不同。
一般来说,可以将 F 设置为任何参数或非参数函数类,例如,高维参数类、Lipschitz 函数类、再现核希尔伯特空间以及基于回归树或基于随机森林的类。 对于任何函数类 F ,只要我们能找到一个计算效率高且统计上最优的离线回归预言机,我们就可以获得一个实用的算法,实现相应上下文老虎机问题的最优遗憾。
这通常会导致更快的算法和改进的遗憾界限。 特别是,我们的遗憾上限对 T 的依赖性通常比文献中先前的上限更好,这要归功于当我们直接将离线估计误差界转换为遗憾界时,我们在对 T 的依赖性方面损失很小 . 此外,我们的结果使人们能够解决更广泛类别的新上下文老虎机问题,例如具有重尾奖励的上下文老虎机,稍后将对此进行讨论。
3.2 Discussion
我们讨论了关于我们的假设 2 和定理 2 的一些有趣的观察结果,这进一步证明了我们结果的普遍性。
不需要 ERM 的确切解决方案。 假设 2 的一个重要优点是它对如何生成预测器 f b 没有任何限制,因此不需要使用 ERM 或精确求解 ERM。 这意味着离线预测器 f b 可以通过运行迭代优化算法(如(随机)梯度下降)来获得,其计算可以在大型数据集上以在线/流式方式实现,这是现代机器学习实践中的一个重要考虑因素。 换言之,f b 可以通过各种方法计算,并且 f b 的优化误差已经包含在离线学习保证 E F ,δ (n) 中。
不需要精确的可实现性。 另一个观察结果是一些近似误差也可以包含在 E F ,δ (n) 中,这使得人们能够考虑一些可实现性的宽松概念。
请注意,定理 2 的证明不依赖于可实现性假设——证明仅依赖于假设 2,即使 f ∗ ∈ / F 也是明确定义的。 这意味着算法 2 和遗憾界 (4) 并不真正需要 f ∗ ∈ F — 它们所需要的只是一个已知保证 E F ,δ (n),它正确地限制了 f b 和 f ∗ 之间的总体 L 2 距离的上限。 因此,我们的结果很容易扩展到可实现性仅保持大约已知错误指定误差的设置(Van Roy 和 Dong 2019、Lattimore 等人 2020、Foster 和 Rakhlin 2020)。
具体来说,假设 f ∗ ∈ / F 但存在一个函数 f 〜 ∈ F 在 sup x,a | 的意义上接近 f ∗ f ∼ (x, a) - f ∗ (x, a) | ≤ ,那么我们可以推导出
()
这意味着可以将 E F ,δ (n) 加上一个估计误差的上限,该误差为 e -p ) 类型的估计误差边界通过离线到零与 n (请注意,仍然可以得到尖锐的 O(n Regression in the misspecified setting; see Rakhlin et al. 2017). 将上述 E F ,δ (n) 的选择代入算法 2 和一般遗憾界 (4) 中,可以很容易地获得错误指定设置中的遗憾界,即 通常等于指定设置中的遗憾界限加上 √ O( KT ) 的加性项。虽然这个加性项在 T 中是线性的,但这并不奇怪,并且与这种设置中的现有结果一致(例如, Foster 和 Rakhlin 2020 的定理 5),因为模型指定错误,而遗憾仍然根据全局最优策略 π f ∗ 进行评估。
值得注意的是,错误指定的错误在实践中可能是未知的。 我们论文的后续工作解决了适应未知的挑战; 有关后续工作的讨论,请参见第 5 节。
奖励可以是无限的/重尾的。 我们注意到,假设 r t ∈ [0, 1] A 对于我们的归约不是必不可少的,如果我们只想将遗憾限制在期望中而不是高概率。 具体来说,要在预期遗憾上获得相同的结果,我们只需要在奖励分配上满足以下条件:
(5)
这是非常弱的——在多臂老虎机的特殊情况下,它意味着“两个动作的√平均奖励之间的差距不大于K”。 请注意,(5) 只涉及条件均值 f ∗ (x, a) 而不是奖励分布,因此允许奖励中的“随机噪声”具有任意分布。 此外,(5) 允许 f ∗ (x, a) 的尺度任意大且未知(因为它只涉及间隙),从而使 F 能够包含无界函数。 因此,离线无界/重尾回归的“快速率”的最新进展(参见 Mendelson 2014 以及 Xu 和 Zeevi 2020a 的第 8 节)可以转化为上下文强盗。
在这里,我们减少的优点是奖励分布的不同假设仅通过假设 2 中的离线学习保证 E F ,δ (n) 影响我们的结果,因此相关的离线回归挑战与上下文强盗“分离”。 请注意,虽然重尾噪声在离线回归中得到了很好的研究,但在上下文强盗中却很少被研究,尤其是在通用函数类中。 我们的归约提供了一种简单的方法来获得这样的结果。
对延迟和批量反馈的鲁棒性。 在上下文强盗的实际应用中(例如,临床试验、推荐系统),对学习者的反馈通常不是即时的,可能会分批到达(Chapelle 和 Li 2011)。 在 Perchet 等人。 (2016)和高等人。 (2019),开发了一种“批量老虎机”模型,由于一些实际限制,学习者必须将其学习过程分成少量批次。 由于 FALCON / FALCON+ 只需要在每个 epoch 结束后处理与每个 epoch 相关的反馈,因此我们的算法自然会处理延迟和批量反馈。 特别是,定理 2 直接适用于具有一般函数类的随机上下文强盗的批处理版本,并暗示 O(log log T ) 批次足以达到 T 的最佳后悔率,这显着概括了现有结果 成批的土匪。 我们注意到,处理延迟和批量反馈的能力是采用 epoch 调度和使用离线回归预言机而不是在线回归预言机的重要优势,因为众所周知,在线回归需要立即反馈,并且由于 对抗模型中的延迟奖励通常比随机模型大得多(参见 Lattimore 和 Szepesvári 2020)。

4 Regret Analysis

在本节中,我们将详细说明我们的简单算法如何实现最佳遗憾。 虽然我们基于算法 1 和定理 1 进行分析,但算法 2 和定理 2 的一切基本相同。我们首先分析我们的算法(通过有趣的双重解释)并在第 4.1 到第 4.4 节中提供定理的证明草图 1. 然后,在第 4.5 节中,我们解释了我们算法背后的关键思想,在第 4.6 节中,我们展示了这个想法是如何导致算法的。
为了便于演示,在本节中我们假设 |X | < ∞ 但允许 |X | 可以任意大。 专注于这样的环境使我们能够突出重要的想法和关键见解,而无需需要调用测量理论参数(对于无限/不可数 X 是必要的)。
我们注意到我们所有的结果都适用于一般不可数 X ; 有关详细信息,请参见附录 A.7。
由于算法 1 中出现的一些符号是简写的,并没有明确地揭示不同数量之间的依赖关系(例如,b a t 和 p t (·) 应该写成一个函数,并且明确地依赖于随机上下文 x t 的条件分布),我们引入了一些 新的符号可以更系统地描述算法 1 的决策生成过程。 对于每个 epoch m ∈ N,给定学习率 γ m ∈ R + 和贪婪预测器 f b m : X × A → [0, 1] (由前 m - 1 个 epoch 的数据唯一确定),我们可以 使用 γ m 和 f b m 明确表示算法的决策规则。 具体来说,对于任何 x ∈ X ,定义 b a m (x) := max a∈A f b m (x, a) 和
()
那么 p m (·|·) 是一个定义良好的动作选择核(参见第 1.5 节),它完整地刻画了算法在第 m 个时期的决策规则。 具体来说,在 epoch m 的每一轮 t 中,算法首先观察一个随机上下文 x t ,然后根据条件分布 p m ( · | x t ) 对其动作 a t 进行采样。 注意,p m (·|·) 取决于直到第 τ m−1 轮(包括第 τ m−1 轮)的所有随机性,这意味着 p m (·|·) 取决于 p 1 (·|·),p 2 (·|·), . . . , p m−1 ( · | · ), 并且会影响 p m+1 ( · | · ), p m+2 ( · | · ), . . . 在后来的时代。
4.1 A Tale of Two Processes
分析我们的算法在第 m 轮第 t 轮的行为的常规方法是研究以下原始过程: 1. 自然生成 x t ∼ D X 。
2. 算法对 a t ∼ p t (·) 进行采样。
然而,上述过程很难分析,因为算法对动作的采样策略 p t (·) = p m (·| x t ) 取决于新的随机上下文 x t ,并且在观察 x t 之前无法提前评估。
我们分析的一个核心思想是在观察 x t 之前找到一种方法来检查算法在第 t 轮的行为。 为此,我们在 epoch m 的第 t 轮查看以下虚拟过程: 1. 算法采样 π t ∼ Q m ( · ),其中 π t : X → A 是策略,Q m ( · ) : A X → [0, 1] 是 A X 中所有策略的概率分布。
2. 自然产生 x t ∼ D X 。
3. 算法确定性地选择 a t = π t (x t )。
上述过程的优点是算法对策略的采样过程 Q m (·) 独立于新上下文 x t。 虽然算法仍然必须根据 x t 选择一个动作在第 3 步中,这是完全确定的并且更易于分析。 请注意,在第 t 轮,Q m ( · ) 是一个平稳分布,它在第 m 时期的开始就已经确定。
然而,第二个过程是一个虚拟过程,因为它不是我们的算法直接进行的方式。 一个直接的问题是我们是否总能找到策略 Q m (·) 上的分布,使得我们的算法的行为与 epoch m 中的虚拟进程完全相同? 回想一下,该算法在 epoch m 中的决策规则完全由动作选择内核 p m (·|·) 表征。 事实上,任何动作选择内核 p m (·|·) 都可以转换为策略 Q m (·) 上的“等价”分布,使我们能够通过虚拟进程研究算法的行为。 我们在第 4.2 节中完成了这个翻译。
4.2 Action Selection Kernel as a Randomized Policy
我们将通用策略空间定义为 Ψ := A X ,其中包含所有可能的策略。 对于任何 p m ( · | · ),我们可以在 Ψ 上构造一个(唯一的)乘积概率测度 Q m ( · ),使得 Q m (π) = Q x∈X p m (π(x) | x) 对于所有 π ∈ Ψ(见附录引理 3)。 这个 Q m ( · ) 确保对于每个 x ∈ X , a ∈ A ,
(6)
也就是说,对于任何任意上下文 x,由 p m (·| x) 生成的算法动作在概率上等价于由第 4.1 节中的虚拟过程由 Q m (·) 生成的动作。 由于 Q m ( · ) 是通用策略空间中所有确定性策略的密集分布,我们将 Q m ( · ) 称为由 p m ( · | · ) 诱导的“等效随机策略”。 由于 p m ( · | · ) 完全由 γ m 和 f ^ m 决定,我们知道 Q m ( · ) 也完全由 γ m 和 f ^ m 决定。
我们强调我们的算法不计算 Q m (·),而是通过 γ m 和 f b m 隐式维护 Q m (·)。 这一点很重要,因为即使学习器知道 X,计算乘积度量 Q m ( · ) 也需要 Ω( |X | ) 计算成本,这对于大 |X | 来说是难以处理的。 . 请记住,我们所有基于 Q m (·) 的论点仅用于统计分析的目的,与算法的原始实现无关。
4.3 Dual Interpretation in the Universal Policy Space
通过虚拟过程的镜头,我们发现了对我们算法的双重解释:它在通用策略空间 Ψ 中的所有策略上依次保持密集分布 Q m (·),对于 epoch m = 1, 2, 3 。 . . . 因此,对我们算法行为的分析有望简化为对演化序列 { Q m } m∈N 的分析(这仍然很重要,因为它仍然依赖于所有交互数据)。 从现在开始,我们所有的分析都将基于上述双重解释。
当我们开始探索 { Q m } m∈N 在通用策略空间中如何演变时,让我们首先定义这个世界中一些对我们的统计分析有用的隐含量——它们被称为“隐式”是因为我们的算法根本没有真正计算或估计它们,但只要我们的算法继续进行,它们都是定义明确的并且隐式存在的。
将策略 π ∈ Ψ 的“隐含奖励”定义为
()
并将策略 π ∈ Ψ 的“隐含遗憾” 4 定义为
()
在 epoch m 的第 t 轮,给定一个预测变量 f b m ,将策略 π ∈ Ψ 的“预测隐含奖励”定义为
()
并将策略 π ∈ Ψ 的“预测隐含遗憾”定义为 5
()
定义上述数量的想法是由 Agarwal 等人的著名工作激发的。
(2014),它研究了不可知设置中基于策略的最佳上下文老虎机学习(其中设置上述数量不是隐含的,而是发挥明显的作用,并且直接由他们的算法估计)。 虽然定义有一些差异。 例如,Agarwal 等人。 (2014) 为给定有限策略类 Π 中的所有策略 π 定义上述量,而我们为通用策略空间 Ψ 中的所有策略定义上述量(基于逆倾向 b t ( π) 和 Reg 比 Π)。 此外,Agarwal 等人。 (2014) 定义 R 评分估计,而我们基于单个预测器定义它们。 稍后我们将重新审视这些差异。
在定义了上述量之后,我们进行了一个简单而有力的观察,这是 (6) 的直接结果:对于任何时期 m ∈ N 和时期 m 中的任何一轮 t,我们有
()
见附录中的引理 4。 这意味着(在 γ m , f b m 的任何可能实现下)我们的算法产生的预期瞬时遗憾等于随机策略 Q m 的“隐式遗憾”(作为每个确定性策略的隐式遗憾的加权和 π ∈ Ψ)。 由于 Reg(π) 是每个 π ∈ Ψ 的固定确定量,因此上式表示即要分析我们的算法在 epoch m 的预期后悔,我们只需要分析分布 Q m ( · )。 这个属性显示了我们双重解释的优势:与第 4.1 节中的原始过程相比,在没有 xt 的情况下很难评估我们的算法,现在我们可以评估我们算法的行为而不管 xt 。
4.4 Optimal Contextual Bandit Learning in the Universal Policy Space
我们继续了解 Q m (·) 在通用政策空间中如何演变。 我们首先根据方程(6)给出的 p m ( · | · ) 和 Q m ( · ) 的等价性陈述立即观察。
观察 1 对于任何确定性策略 π ∈ Ψ,数量 E x∼D X h 1 p m (π(x)|x) i 是“随机策略 Q m 生成的决策与决策相同”的预期逆概率 由确定性策略 π 生成,”在上下文 x 的随机化上。 这个量可以直观地理解为衡量随机策略 Q m 和确定性策略 π 之间的“决策分歧”。
现在让我们在我们的算法中利用 p m (·| x) 的封闭式结构,并指出下面描述的 Q m (·) 的一个最重要的性质(详见附录中的引理 5 和引理 6)。
观察 2 对于任何时期 m ∈ N 和时期 m 中的任何轮 t,对于 γ m 和 f b m 的任何可能实现,Q m ( · ) 是以下“隐式优化问题”(IOP)的可行解:
(7)
(8)
我们对上面定义的“隐式优化问题”(IOP)给出了一些解释。 (7) 表示 Q m 在 K/γ m 内控制其预测的隐式遗憾(作为每个策略 π ∈ Ψ 的预测隐式遗憾的加权和,基于预测器 f b m )。 这可以理解为“剥削约束”,因为它需要 Q m 将更多的质量放在“良好的政策”上,并且预测的隐含遗憾较低(由当前的预测因子 f b m 判断)。 (8) 表示 Q m ( · ) 与任何策略 π ∈ Ψ 之间的决策分歧由策略 π 的预测隐式后悔(乘以学习率 γ m 并加上常数 K)控制。 这可以理解为“自适应探索约束”,因为它要求 Q m 在某种程度上与每个策略 π ∈ Ψ 的行为相似(这意味着应该有足够的探索),同时允许 Q m 更类似于“ 具有低预测隐性遗憾的“好策略”与具有高预测隐性遗憾的“坏策略”不太相似(这意味着可以根据预测器 f b m 的判断自适应地进行探索)。 结合(7)和(8),我们得出结论,Q m 优雅地罢工
探索和利用之间的平衡——令人惊讶的是,这是完全隐式完成的,因为原始算法根本没有明确考虑这些约束。
还有一些重要的任务需要完成。 第一个任务是弄清楚决策散度 E x∼D X p m (π(x)|x) 究竟意味着什么。 我们在引理 7 中给出了答案,这表明,对于任何时期 m ∈ N 和任何时期 t 在时期 m 中,对于所有 π ∈ Ψ,很有可能,
()
也就是说,每个策略 π ∈ Ψ 的隐含奖励的预测误差可以由 π 和所有先前使用的随机策略 Q 1 之间的(最大)决策散度限制。 . . , Q m-1 。 这与我们的直觉是一致的,因为一个策略与之前使用的随机策略越相似,这个策略就越有可能在过去被隐式探索,因此我们对该策略的预测应该越准确。 我们强调,上述不等式依赖于我们对学习率 γ m 的规定:我们可以使用 1/γ m 来限制预测误差 p √ 因为 1/γ m 与 1/ τ m−1 成正比并且与 log |F 成正比 | — 第一个 p √ 数量 1/ τ m−1 与历史的长度有关,第二个数量 log |F| 与函数类 F 的泛化能力有关。 这是我们的证明需要一个时代变化的学习率的第一个地方。
第二个任务是进一步限制每个策略 π 的隐式遗憾的预测误差(顺序),因为隐式遗憾是一个重要的量,可以直接用于限制我们算法的预期遗憾(参见第 4.3 节)。 我们在引理 8 中这样做,其中我们以高概率表明,对于任何时期 m ∈ N 和时期 m 中的任何一轮 t,对于所有 π ∈ Ψ,
()
通过归纳论证。 虽然这是一个均匀收敛类型的结果,但我们希望 d t (π) | 对于所有 π ∈ 澄清这并不意味着 | 存在一致收敛。 Reg(π) - Reg d t (π) Ψ,太强了,不太可能是真的。 相反,我们使用 Reg(π) − 2 Reg d t (π) − 2Reg(π) 的智能设计(该设计由 Agarwal 等人 2014 中的引理 13 推动),这使我们能够描述以下事实: “好政策”的隐含后悔预测越来越准确,而“坏政策”的隐含后悔预测不需要准确(因为它们的阶数直接支配 K/γ m )。 我们强调,上述结果依赖于这样一个事实 √ 我们的学习率 γ m 从 O(1) 逐渐增加到 O( T ),因为我们使用归纳论证,并且为了让假设适用于我们有的初始情况 让 γ m 对于小 m 非常小。 这是我们的证明需要一个时代变化的学习率的第二个地方。
我们已经详细阐述了我们的算法如何隐式地在探索和利用之间取得平衡,以及我们的算法如何隐式地使一些好的均匀收敛型结果在通用策略空间中发生。 这已经足以保证我们的算法的双重解释在通用策略空间中实现最佳的上下文老虎机学习。
其余的证明是标准的,可以在附录中找到。
4.5 Key Idea: Bypassing the Monster
对于熟悉使用离线成本敏感分类预言机(Dudik et al.
2011,阿加瓦尔等人。 2014),他们可能会发现我们在观察 2 中引入的 IOP(7)(8)与 Dudik 等人的所谓“优化问题”(OP)之间存在惊人的联系。 (2011)和阿加瓦尔等人。 (2014) — 特别是,如果您查看 Agarwal 等人的第 5 页中定义的 OP。 (2014),人们会发现它与我们的 IOP (7) (8) 几乎相同,除了两个根本区别: 1. Dudik 等人的 OP。 (2011)和阿加瓦尔等人。 (2014)是在给定的有限策略类Π上定义的,它可能具有任意形状。 因此,要获得 OP 的解决方案,该算法必须明确解决可能复杂的策略类上的复杂(非凸)优化问题——这需要对成本敏感的分类预言机进行大量调用,并且是 Dudik 等人的主要计算负担。 (2011)和阿加瓦尔等人。
(2014)。 虽然 Agarwal 等人。 (2014)“驯服怪物”并通过仅在Π中策略性地维持策略上的稀疏分布来降低计算成本,解决 OP 仍然 p e KT / log | Π | ) 调用分类预言机并且计算量很大,需要 O( - 怪物仍然存在。
相比之下,我们的 IOP 是在通用策略空间 Ψ 上定义的,这是一个很好的产品空间。 因此,IOP 可以被视为非常容易解决的 OP 的“松弛”松弛。 特别是,正如第 4 节所建议的,IOP 的解决方案可以具有完全分解的形式,这使我们的算法能够以完全隐式的方式解决它。 这意味着我们的算法可以隐式且自信地保持 Ψ 中所有策略的密集分布,同时在没有计算成本的情况下以封闭形式解决 IOP——不再有怪物,因为我们只是绕过它。
2. 在 Dudik 等人中。 (2011)和阿加瓦尔等人。 (2014 年),基于无模型逆倾向评分估计计算的数量 R。 因此,他们的遗憾保证不需要可实现性假设。
d t (π) 是基于 b t (π) 和 Reg 隐式计算的 相比之下,在我们的论文中,数量 R 在单个贪婪预测器 f b 上——我们可以这样做,因为我们有可实现性假设 (或可实现性的宽松概念),这使我们能够学习奖励模型并获得接近 f * 的 f b (另见假设 2)。 因此,我们在这里对离线回归预言机进行了一次调用,这是我们算法的主要计算成本。
一个可能的问题是,考虑到 Dudik 等人的主要计算负担。 (2011)和阿加瓦尔等人。 (2014)正在解决 OP,为什么他们不能像我们在 IOP 中那样简单地放松 OP? 答案是,如果没有可实现性假设,他们必须依赖其策略空间的容量控制,即 | 的有界性。 Π | , 得到他们的统计 p e KT log | Π | ) 遗憾界表明,如果让 Π = A X ,则保证。 事实上,因为他们的 O( 遗憾可能与 Ω( |X | ) 一样大。具体来说,他们的分析需要 Π 在两个地方的有限容量(或复杂性):首先,逆倾向评分 d t (π ) 没有 b t (π) 和 Reg 需要限制 | Π | ;其次,由于他们必须在知道真实上下文分布 D X 的情况下明确计算 R,因此他们尝试根据历史数据来近似它,这也需要限制 | Π | 才能启用 统计保证。
我们的算法同时绕过了上述两个要求:首先,由于我们使用基于模型的回归而不是无模型的逆倾向评分来进行预测,所以我们不关心我们的策略空间在预测方面的复杂性(即泛化保证 我们的算法由 F 的容量而不是 Ψ 控制); 其次,由于我们的 d t (π),我们不关心 b t (π) 和 Reg 算法不需要显式计算 R D X 的样子。 本质上,所有这些好的属性都源于可实现性假设。
这就是我们如何理解可实现性的价值:它不仅(统计上)给了我们更好的预测,而且(计算上)使我们能够消除策略空间中的限制,这有助于我们绕过怪物。
4.6 The Birth of FALCON
正如第 4.5 节中所解释的那样,“绕过怪物”背后的想法正是导致 FALCON 算法推导的原因。 这个推导很有趣,因为它揭示了 Dudik 等人研究的著名 OP 之间的深层联系。 (2011),阿加瓦尔等人。 (2014 年)以及 Abe 和 Long(1999 年)以及 Foster 和 Rakhlin(2020 年)研究的有趣的概率选择策略。
在结束本节之前,我们将描述 FALCON 是如何派生的。 我们希望这个推导过程可以为以前的工作提供新的视角,并激发对其他老虎机和强化学习问题的新算法的进一步发现。
1 我们进行了一个思想实验,考虑 ILOVETOCONBANDITS (Agarwal et al. 2014) 如何在没有可实现性假设的情况下解决我们的问题,给定一个诱导策略类 Π = { π f | f ∈ F } 。
2 ILOVETOCONBANDITS 使用逆倾向评分方法来计算策略的预测奖励和预测遗憾。 这可以被认为是对 π ∈ Π 使用无模型方法 d t (π)。
3 b t (π) 和 Reg(不同于我们的 § 4.3)来计算 R 3。上述思想实验中的计算负担是解决 Π 上的 OP,这需要重复调​​用对成本敏感的分类预言机。
4 当我们具有可实现性时,我们可以使用回归预言来获得预测变量 f b m 并使用它 d t (π) 用于 π ∈ Ψ(如果 D X 已知)。 在这里,我们可以对集合 b t (π) 和 Reg 进行操作,以计算所有策略的 R,而不仅仅是在 Π 上,因为泛化是由 F 的容量控制的。
5 Agarwal 等人引理 4.3 的早期技术成果。 (2012)非常有趣。 它表明,当尝试使用回归方法解决上下文强盗时,应该尝试限制一个数量,例如“选择相同动作的预期逆概率”——请注意,在 Agarwal 等人的 OP 中也出现了一个非常相似的数量。 (2014)。 这表明基于离线回归预言机的算法应该尝试满足一些类似于 OP 的要求。 (Agarwal et al. (2012) 中的引理 4.3 也激发了我们的引理 7。但我们的引理 7 比 Agarwal 等人 (2012) 中的引理 4.3 迈出了重要的一步,解除了预测变量和策略之间的关系并向前推进 6. 在 3、4 和 5 的激励下,我们将 OP 的域从 Π 松弛到 Ψ,得到松弛问题 IOP。 由于新域 Ψ = A X 是一个乘积空间,我们考虑按上下文分解的 IOP 版本,即“以单个 x 为条件”的问题:
()
显然,上述问题有一个封闭形式的解决方案:选择动作的条件概率 π(x) 应该与预测的奖励差距 π(x) 乘以 γ m 成反比。 这导致了 FALCON 在 epoch m 的决策生成过程。

5 结束语

在本文中,我们提出了第一个可证明最优的基于离线回归预言机的通用上下文老虎机算法,解决了上下文老虎机文献中的一个重要开放问题。
我们的算法出奇的快速和简单,而且我们的分析非常笼统。 我们希望我们的发现能够激发未来对上下文强盗和强化学习的研究。 我们在下面讨论一些后续工作和未来方向。
后续工作。 自从我们论文的第一个版本出现在 arXiv(Simchi-Levi 和 Xu 2020)上以来,我们的工作直接激发了一些发展。 在这里,我们提到了我们结果的几个扩展。 Xu 和 Zeevi (2020b) 将我们的结果扩展到实际环境的无限行动。 福斯特等人。 (2020)在我们的结果的基础上实现对上下文强盗的实例依赖保证,并将结果进一步扩展到强化学习。 Wei and Luo (2021) 将我们的结果扩展到非平稳上下文强盗; 他们处理非平稳性的方法非常普遍,并且可以找到更广泛的应用。 森等人。 (2021)将我们的结果扩展到组合动作模型,其中每轮需要选择多个动作。 克里希那穆尔蒂等人。 (2021)将我们的结果扩展到模型错误指定且错误指定错误未知的设置。
未来发展方向。 展望未来,我们的工作激发了许多有趣的研究问题。
首先,在示例 2(线性上下文强盗)中,与 LinUCB 相比,我们的遗憾界对 K 的依赖性更差(Chu et al. 2011)。 这似乎是所采用的概率选择策略的局限性,即它没有充分利用某些函数类的特殊属性来获得对 K 的改进依赖。更好地理解这个问题,更广泛地理解如何表征和实现后悔的 从理论和实践的角度来看,一般函数类对 K 的最佳依赖性很重要。 其次,我们的工作在基于策略(不可知)和基于价值功能(可实现)的上下文强盗之间建立了新的联系。 我们希望本文开发的技术和观点能够在函数逼近的强化学习中找到更广泛的应用。 最后,我们的工作成功地将一个突出的在线决策问题简化为一个经过充分研究的离线监督学习问题。 在其他实际学习环境中是否可以实现类似的在线到离线减少?

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值