OR青年| Multi-Armed Bandits算法安全性问题、非线性效益函数问题综述

编者按

本文系『OR青年计划』成果,是林韵端同学在覃含章和朱睿豪教授指导下完成。由『运筹OR帷幄』社区主办的『OR青年计划』,旨在帮助对运筹学应用有理想和追求的同学,近距离与学界、业界导师交流课题,深入了解运筹学的细分方向,为后续的深造、就业生涯打下坚实的基础。关于第二届『OR青年计划』的详细情况,请参考成果汇报来啦!第二届OR青年计划之学界实验室结营直播预告!!!

本文首先对于 MAB 算法进行简要综述概况,然后分别对两方面具体的问题的文献进行介绍:1. MAB 算法的安全性问题;2. 非线性效益函数的 bandits 问题,包括 convex, submodular, monotone 等。

一、Multi-armed bandits 综述

MAB 是一种 online 的决策优化算法。决策优化问题主要可以分为 offline 与 online 两种类型。这两种不同类型问题的主要区别为数据收集和决策判断在时间上是否同步发生。Offline 的问题通常假设我们已经(通过之前收集的数据)得到了模型具体参数,基于这些参数,去寻找一个问题的最优解。Online 的问题则考虑数据收集和决策判断是同时发生,即在最初始的时候,假设模型的参数是未知的。我们需要通过做决策实时得到的数据去估计模型参数,但同时我们也期望随着时间的推进最大化决策得到的收益。因而,在 online  的情况下,我们主要需要做的事情是平衡 exploration (通过探索不同的决策去更好地估计模型)和 exploitation (通过当前得到的模型去寻找最优决策)两种行为。

MAB 的经典设定为:系统存在 K 个行为,采取每个行为分别可以得到不同的收益。决策者一开始不知道每个行为对应的收益大小,但是通过在一段长达 T 的时间内与系统进行交互(每一时刻选择一个行为决策,并获得相应的收益),从而逐步积累信息。最终,决策者的目标是最大化 T 时间内得到的总收益,换言之,最小化 T 时间内的 regret (与采取最优行为相比失去的收益)。

随着对于 bandit 问题探索的深入,研究者们所关注的设定不再局限于 K 个不同效益的行为。更多的,我们可以用 bandits 的想法去解决未知参数的不同种类的优化问题。其中被广泛研究的问题包括,contextual bandits (每个行为有不同的特征,采取该行为得到的效益也因此是其特征的一个函数),combinatorial bandits (决策者每一时刻可以选择多个行为一起实现,并得到多个行为的综合收益),continuous bandits (决策者的决策域不再是离散的,而是连续的区间)等。

二、MAB 的安全性问题

MAB 的安全性是一个非常新颖的研究问题。近年来随着对 MAB 算法的研究深入,很多人尝试将其应用至工业实践中。但是从目前的实践经验来看,MAB 算法尽管对于解决 online 问题有理论上的保证,在业界实践中它并没有广泛地应用。其中一个非常重要的原因是,为了寻找到最优的决策 MAB 算法需要投入一定比例的时间去 explore (探索不同决策带来的收益)。而 explore 的过程中, MAB 算法不可避免地会选择到一些收益较低的行为。对于执行者来说,MAB 的exploration 会造成在使用算法的过程中,尤其是早期阶段, MAB 算法带来的收益远低于现行的经验性上较优的策略。对于一个庞大体量的业界问题,是否值得为了长期意义上的未知的提升去执行 MAB 算法就成为了一个至关重要的问题。

为了解决这个问题,研究人员提出了 MAB 的安全性问题,即执行 MAB 算法的同时,每一时刻都能够得到一定的收益保障。更进一步来说,以现行的决策策略作为参考,保证 MAB 算法得到的收益能够达到一定的比例。近几年来,有越来越多的文献关注到这个问题,其中较为有代表性的有 [1, 2, 3]。其中 [1,2] 引入了 conservative bandits 的概念,通过一种保守的策略去进行探索,[3] 利用G-optimal design,将安全性的约束变为了优化问题的一部分进行解决,并且在 offline 和 online 两种情况下都提供有理论保障的解。

三、非线性效益的 bandit 问题

受到上述问题的启发,我在三位导师的指导下对于更多的 bandits 相关问题进行探索。我回忆起我曾经在实习中碰到的一个实际问题。在 bandits 的设定下,效益和行为通常假设为线性的关系,即行为和效益之间是通过一个线性参数的模型描绘的。一旦我们知道了这个参数的取值,我们就可以任何行为所对应能得到的收益。但在现实生活中,很多问题通常不是线性的。而这一类拥有非线性效益的 bandit 问题仍有很多可以探索的方向。因此在这个方向,我阅读了三类文献,效益为 concave 的 online 资源分配问题,online submodular maximization 以及效益为 monotone 的 estimation 的问题。

参考文献

[1] Wu, Y., Shariff, R., Lattimore, T., & Szepesvári, C. (2016, June). Conservative bandits. In International Conference on Machine Learning (pp. 1254-1262). PMLR.

[2] Lin, J., Lee, X. Y., Jubery, T., Moothedath, S., Sarkar, S., & Ganapathysubramanian, B. (2022). Stochastic Conservative Contextual Linear Bandits. arXiv preprint arXiv:2203.15629.

[3] Zhu, R., & Kveton, B. (2022, May). Safe Optimal Design with Applications in Off-Policy Learning. In International Conference on Artificial Intelligence and Statistics (pp. 2436-2447). PMLR. 

[4] Fontaine, X., Mannor, S., & Perchet, V. (2020, January). An adaptive stochastic optimization algorithm for resource allocation. In Algorithmic Learning Theory (pp. 319-363). PMLR.

[5] Zhang, M., Chen, L., Hassani, H., & Karbasi, A. (2019). Online continuous submodular maximization: From full-information to bandit feedback. Advances in Neural Information Processing Systems, 32.

[6] Nie, G., Agarwal, M., Umrawal, A. K., Aggarwal, V., & Quinn, C. J. (2022, February). An Explore-then-Commit Algorithm for Submodular Maximization Under Full-bandit Feedback. In The 38th Conference on Uncertainty in Artificial Intelligence.

[7] Gabillon, V., Kveton, B., Wen, Z., Eriksson, B., & Muthukrishnan, S. (2013). Adaptive submodular maximization in bandit setting. Advances in Neural Information Processing Systems, 26.

[8] Kakade, S. M., Kanade, V., Shamir, O., & Kalai, A. (2011). Efficient learning of generalized linear and single index models with isotonic regression. Advances in Neural Information Processing Systems, 24.

 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值