Neural Contextual Bandits with UCB-based Exploration

本文链接：https://blog.csdn.net/weixin_43889128/article/details/124613879

摘要

我们研究随机上下文老虎机问题，其中奖励是由具有加性噪声的未知函数生成的。除了有界之外，没有对奖励函数做出任何假设。我们提出了一种新算法 NeuralUCB，它利用深度神经网络的表示能力，并使用基于神经网络的随机特征映射来构建奖励的置信上限 (UCB) 以进行有效探索。我们证明，在 √ 标准假设下，NeuralUCB 实现了 e T ) 遗憾，其中 T 是轮数。
O( 据我们所知，它是第一个基于神经网络的上下文老虎机算法，具有近乎最优的遗憾保证。我们还表明，该算法在许多基准测试中与代表性基线相比具有经验竞争力。

1 引言

随机上下文老虎机问题已在机器学习中得到广泛研究（Langford & Zhang, 2008; Bubeck & Cesa-Bianchi, 2012; Lattimore & Szepesvári, 2019）：在第 t 轮 ∈ {1, 2, . . . , T }，一个代理被呈现一组 K 个动作，每个动作都与一个 d 维特征向量相关联。选择一个动作后，代理将收到一个随机奖励，该奖励是从某个未知分布生成的，该分布取决于该动作的特征向量。代理的目标是最大化 T 轮的预期累积奖励。上下文老虎机算法已应用于许多现实世界的应用，例如个性化推荐、广告和网络搜索。
文献中研究最多的模型是线性上下文强盗（Auer，2002；Abe 等，2003；Dani 等，2008；Rusmevichientong & Tsitsiklis，2010），它假设每轮的预期奖励在特征向量中是线性的。虽然在理论和实践上都取得了成功（Li et al., 2010; Chu et al., 2011; Abbasi-Yadkori et al., 2011），但它所做出的线性回报假设在实践中常常无法成立，这激发了研究非线性或非参数上下文强盗（Filippi et al., 2010; Srinivas et al., 2010; Bubeck et al., 2011; Valko et al., 2013）。但是，它们仍然需要对奖励函数进行相当严格的假设。例如，Filippi 等人。（2010）对奖励做出广义线性模型假设，Bubeck 等人。
（2011）要求它在适当的度量空间中具有 Lipschitz 连续属性，而 Valko 等人。（2013）假设奖励函数属于一些再生核希尔伯特空间（RKHS）。
为了克服上述缺点，深度神经网络 (DNN) (Goodfellow et al., 2016) 被引入来学习上下文老虎机问题中的底层奖励函数，这要归功于它们强大的表示能力。我们将这些方法统称为神经上下文老虎机算法。鉴于 DNN 使代理能够利用领域知识较少的非线性模型，现有工作 (Riquelme et al., 2018; Zahavy & Mannor, 2019) 研究了神经线性老虎机。也就是说，他们使用 DNN 的最后一层以外的所有层作为特征图，将上下文从原始输入空间转换为低维空间，通常具有更好的表示和较少的更新频率。然后，他们在 DNN 的最后一个隐藏层之上学习线性探索策略，并进行更频繁的更新。这些尝试取得了巨大的经验成功，但没有提供任何遗憾的保证。
在本文中，我们考虑了可证明有效的神经上下文老虎机算法。新算法 NeuralUCB 使用神经网络来学习未知的奖励函数，并遵循 UCB 策略进行探索。该算法的核心是新颖地使用基于 DNN 的随机特征映射来构建 UCB。其遗憾分析基于深度神经网络优化和泛化的最新进展（Jacot 等人，2018；Arora 等人，2019；Cao & Gu，2019）。至关重要的是，该分析没有对奖励函数进行建模假设，除了它是有界的。虽然我们论文的主要重点是理论，但我们还在一些基准问题中展示了 NeuralUCB 的有效性，并证明了它对几个代表性基线的好处。
我们的主要贡献如下： • 我们提出了一种神经上下文老虎机算法，可以看作是现有（广义）线性老虎机算法的扩展（Abbasi-Yadkori 等人，2011；Filippi 等人，2010；Li 等人） ., 2010; 2017) 对于任意有界奖励函数的情况。
假设，我们的算法 • 我们证明，在标准 √ e d e T ) 遗憾下，其中 d e 是能够实现神经正切核矩阵的 O( tive 维数的效果，T 是轮数 √。边界恢复了现有的 O(d T ) 对作为特例的线性上下文强盗感到遗憾（Abbasi-Yadkori et al., 2011），其中 d 是上下文的维度。
• 我们通过经验证明了算法在综合问题和基准问题中的有效性。
符号：标量用小写字母表示，向量用小写粗体字母表示，矩阵用大写粗体字母表示。对于正整数 k，[k] 表示 {1, . . . , k}。 q 对于向量 θ ∈ R d ，我们用 kθk 2 = i=1 θ i 表示它的 P d 2 ` 2 范数，用 [θ] j 表示它的第 j 个坐标。对于矩阵 A ∈ R d×d ，我们分别用 kAk 2 、kAk F 和 [A] i,j 表示其谱范数、Frobenius 范数和第 (i, j) 项。我们用 {θ j } tj=1 表示向量序列，矩阵也类似。对于两个序列 {a n } 和 {b n }，我们使用 a n = O(b n ) 来表示存在某个常数 C > 0 使得 a n ≤ Cb n ；类似地，a n = Ω(b n ) 意味着存在一些常数 C 0 > 0 这样 e 来隐藏 a n ≥ C 0 b n 的对数。此外，我们使用 O(·) 麦克风因子。我们说随机变量 X 是 ν-sub-Gaussian 如果 E exp(λ(X − EX)) ≤ exp(λ 2 ν 2 /2) 对于任何 λ > 0。

2 问题描述

我们考虑随机 K 臂上下文老虎机问题，其中总轮数 T 是已知的。在回合 t ∈ [T ]，代理观察由 K 个特征向量组成的上下文：{x t,a ∈ R d | a ∈ [K]}。代理选择一个动作 a t 并获得奖励 r t,a t 。为简洁起见，我们将 K 表示为 {x i } T i=1 的集合 {x 1,1 , x 1,2 , . . . , x T,K }。我们的目标是最大化以下伪遗憾（或简称为遗憾）：
(2.1)
其中 a ∗ t = argmax a∈[K] E[r t,a ] 是第 t 轮中最大化预期奖励的最优动作。
这项工作对奖励生成做了以下假设：对于任何一轮 t，
(2.2)
其中 h 是