Neural Contextual Bandits with UCB-based Exploration

摘要

我们研究随机上下文老虎机问题,其中奖励是由具有加性噪声的未知函数生成的。 除了有界之外,没有对奖励函数做出任何假设。 我们提出了一种新算法 NeuralUCB,它利用深度神经网络的表示能力,并使用基于神经网络的随机特征映射来构建奖励的置信上限 (UCB) 以进行有效探索。 我们证明,在 √ 标准假设下,NeuralUCB 实现了 e T ) 遗憾,其中 T 是轮数。
O( 据我们所知,它是第一个基于神经网络的上下文老虎机算法,具有近乎最优的遗憾保证。我们还表明,该算法在许多基准测试中与代表性基线相比具有经验竞争力。

1 引言

随机上下文老虎机问题已在机器学习中得到广泛研究(Langford & Zhang, 2008; Bubeck & Cesa-Bianchi, 2012; Lattimore & Szepesvári, 2019):在第 t 轮 ∈ {1, 2, . . . , T },一个代理被呈现一组 K 个动作,每个动作都与一个 d 维特征向量相关联。 选择一个动作后,代理将收到一个随机奖励,该奖励是从某个未知分布生成的,该分布取决于该动作的特征向量。 代理的目标是最大化 T 轮的预期累积奖励。 上下文老虎机算法已应用于许多现实世界的应用,例如个性化推荐、广告和网络搜索。
文献中研究最多的模型是线性上下文强盗(Auer,2002;Abe 等,2003;Dani 等,2008;Rusmevichientong & Tsitsiklis,2010),它假设每轮的预期奖励在特征向量中是线性的。 虽然在理论和实践上都取得了成功(Li et al., 2010; Chu et al., 2011; Abbasi-Yadkori et al., 2011),但它所做出的线性回报假设在实践中常常无法成立,这激发了研究 非线性或非参数上下文强盗(Filippi et al., 2010; Srinivas et al., 2010; Bubeck et al., 2011; Valko et al., 2013)。 但是,它们仍然需要对奖励函数进行相当严格的假设。 例如,Filippi 等人。 (2010)对奖励做出广义线性模型假设,Bubeck 等人。
(2011)要求它在适当的度量空间中具有 Lipschitz 连续属性,而 Valko 等人。 (2013)假设奖励函数属于一些再生核希尔伯特空间(RKHS)。
为了克服上述缺点,深度神经网络 (DNN) (Goodfellow et al., 2016) 被引入来学习上下文老虎机问题中的底层奖励函数,这要归功于它们强大的表示能力。 我们将这些方法统称为神经上下文老虎机算法。 鉴于 DNN 使代理能够利用领域知识较少的非线性模型,现有工作 (Riquelme et al., 2018; Zahavy & Mannor, 2019) 研究了神经线性老虎机。 也就是说,他们使用 DNN 的最后一层以外的所有层作为特征图,将上下文从原始输入空间转换为低维空间,通常具有更好的表示和较少的更新频率。 然后,他们在 DNN 的最后一个隐藏层之上学习线性探索策略,并进行更频繁的更新。 这些尝试取得了巨大的经验成功,但没有提供任何遗憾的保证。
在本文中,我们考虑了可证明有效的神经上下文老虎机算法。 新算法 NeuralUCB 使用神经网络来学习未知的奖励函数,并遵循 UCB 策略进行探索。 该算法的核心是新颖地使用基于 DNN 的随机特征映射来构建 UCB。 其遗憾分析基于深度神经网络优化和泛化的最新进展(Jacot 等人,2018;Arora 等人,2019;Cao & Gu,2019)。 至关重要的是,该分析没有对奖励函数进行建模假设,除了它是有界的。 虽然我们论文的主要重点是理论,但我们还在一些基准问题中展示了 NeuralUCB 的有效性,并证明了它对几个代表性基线的好处。
我们的主要贡献如下: • 我们提出了一种神经上下文老虎机算法,可以看作是现有(广义)线性老虎机算法的扩展(Abbasi-Yadkori 等人,2011;Filippi 等人,2010;Li 等人) ., 2010; 2017) 对于任意有界奖励函数的情况。
假设,我们的算法 • 我们证明,在标准 √ e d e T ) 遗憾下,其中 d e 是能够实现神经正切核矩阵的 O( tive 维数的效果,T 是轮数 √。边界恢复了现有的 O(d T ) 对作为特例的线性上下文强盗感到遗憾(Abbasi-Yadkori et al., 2011),其中 d 是上下文的维度。
• 我们通过经验证明了算法在综合问题和基准问题中的有效性。
符号:标量用小写字母表示,向量用小写粗体字母表示,矩阵用大写粗体字母表示。 对于正整数 k,[k] 表示 {1, . . . , k}。 q 对于向量 θ ∈ R d ,我们用 kθk 2 = i=1 θ i 表示它的 P d 2 ` 2 范数,用 [θ] j 表示它的第 j 个坐标。 对于矩阵 A ∈ R d×d ,我们分别用 kAk 2 、kAk F 和 [A] i,j 表示其谱范数、Frobenius 范数和第 (i, j) 项。 我们用 {θ j } tj=1 表示向量序列,矩阵也类似。 对于两个序列 {a n } 和 {b n },我们使用 a n = O(b n ) 来表示存在某个常数 C > 0 使得 a n ≤ Cb n ; 类似地,a n = Ω(b n ) 意味着存在一些常数 C 0 > 0 这样 e 来隐藏 a n ≥ C 0 b n 的对数。 此外,我们使用 O(·) 麦克风因子。 我们说随机变量 X 是 ν-sub-Gaussian 如果 E exp(λ(X − EX)) ≤ exp(λ 2 ν 2 /2) 对于任何 λ > 0。

2 问题描述

我们考虑随机 K 臂上下文老虎机问题,其中总轮数 T 是已知的。 在回合 t ∈ [T ],代理观察由 K 个特征向量组成的上下文:{x t,a ∈ R d | a ∈ [K]}。 代理选择一个动作 a t 并获得奖励 r t,a t 。 为简洁起见,我们将 K 表示为 {x i } T i=1 的集合 {x 1,1 , x 1,2 , . . . , x T,K }。 我们的目标是最大化以下伪遗憾(或简称为遗憾):
(2.1)
其中 a ∗ t = argmax a∈[K] E[r t,a ] 是第 t 轮中最大化预期奖励的最优动作。
这项工作对奖励生成做了以下假设:对于任何一轮 t,
(2.2)
其中 h 是

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值