OR Paper Weekly | 毫秒级在线混合整数规划，数据驱动下利用金融衍生品的商品采购无标题

最新推荐文章于 2024-09-27 11:50:10 发布

运筹OR帷幄

最新推荐文章于 2024-09-27 11:50:10 发布

阅读量229

点赞数

文章标签：算法

本文链接：https://blog.csdn.net/weixin_53463894/article/details/128230036

版权

作者：徐思坤，王源，破茧

OR Paper Weekly 栏目将会从运筹学顶级期刊上选择一部分有趣的文章，对这些文章的主要研究内容进行一个概述/点评。OR Paper Weekly 的特点是不做大而全的照搬，也未必都只选择优质的文章，而是精选一部分有趣的文章。辅之以科普/点评/吐槽的方式，让大家随时了解最新的科研动态。欢迎大家一起来欣赏优质文章，学习脑洞文章，鄙视灌水文章。本期 OR Paper Weekly 精选了六篇文章，涵盖整数规划，动态规划，强化学习和生产调度等多个热点话题。

精选论文 (一)

论文题目：Online Mixed-Integer Optimization in Milliseconds

期刊：Informs Journal on Computing

发表年份：2022

作者：Dimitris Bertsimas, Bartolomeo Stellato

原文链接：

https://pubsonline.informs.org/doi/abs/10.1287/ijoc.2022.1181?af=R

摘要：

我们提出了一种近似在线混合整数优化解的方法(MIO)，该方法采用机器学习实现对混合整数规划问题的高速求解。通过利用在线优化的重复性，可以大大加快求解时间。在该方法中我们采用 voice of optimization 的框架将最优解编码为策略。通过如上的转化，可以将优化问题的核心部分转化为一个可以快速求解的多分类问题。在本文中我们致力于将该框架扩展到有实时性和高速性需求的带有参数的混合整数二次规划问题及其相关应用问题中。我们提出的一种快速的在线优化方法，采用前馈神经网络评估和线性系统解决方案。因此，这种在线优化方法不需要任何求解器或迭代算法。我们在总计算量方面展示了所提出方法的总的计算时间和执行时间。同时我们还估计出求解最优解所需的浮点数操作和问题规模所成的函数关系。与最先进的 MIO 例程相比，我们的在线运行时间是必然容易精确预测出的，并且可以低于单个矩阵分解所需的时间。我们在一些标准测试问题上（主要包括燃料电池能源管理、稀疏投资组合优化、和带有避障的运动规划等问题。）与目前最先进的求解器 Gurobi 的方法进行了对比实验。

文章亮点/点评：初看文章题目觉得作者一定是在吹牛逼，再看一下本文的作者赶紧收回自己上一句说的话。从这里我们也可以学到怎么样给自己的文章起一个好题目，其实一个好的题目有时候不需要很长很复杂，只要你能抓住人们的眼球就好。本文实际上给我们提供了一个很好的思路就是可以把带有参数的整数规划问题建模成一个多分类问题，通过这样的一种方式就可以将机器学习和整数规划结合起来。实际上本文所述思路也不是第一次提到了，在本文作者参考文献中的 “voice of optimization” 一文中对这一思想有很多介绍。本文大部分内容实际上继承自 “voice of optimization” 这篇文章，当然本文的侧重点更多在混合整数二次规划问题上。数值实验部分毫无疑问还是和 Gurobi 进行对比，（心疼 Gurobi 一秒每次总被拿来做背景板）。实验结果表明确实本文所提方法大约只需0.01s左右即可完成求解，这一实验室结果很好的对应了本文的题目。

精选论文 (二)

论文题目：Large-scale dynamic system optimization using dual decomposition method with approximate dynamic programming

期刊：System Control & Letters

发表年份：2021

作者：Rokhforoz P, Kebriaei H, Ahmadabadi M N

原文链接：

https://doi.org/10.1016/j.sysconle.2021.104894

摘要：

我们研究了含有耦合约束的多智能体动态优化问题。该问题考虑了各个智能体的线性随机动力学以及智能体之间的耦合约束，且目标函数是一个强凸函数。为了处理上述耦合约束，同时避免大规模系统使用集中式方法造成的高计算成本，我们采用对偶分解方法将问题分解为多个独立的子问题，其中对偶变量由协调器调整。然而，由于每个子问题都不是线性二次型(LQ)最优控制问题，因此子问题不存在闭式解(closed-form solution)。我们利用近似动态规划(ADP)对子问题进行求解。我们的主要贡献是提出了一种考虑调整对偶变量和ADP的迭代算法，并证明了该算法中成本函数的全局最优解具有收敛性。此外，我们利用神经网络实现了该算法。仿真结果还讨论了该算法相对于其他经典方法的优势。

文章亮点/点评：多智能体强化学习的问题近来受到了越来越多的关注，而常见的多智能体强化学习所面临的问题主要有两点：1是耦合约束的存在导致智能体之间互相无法独立，这就造成了如果强行考虑耦合约束即使采用强化学习，近似动态规划等方法其单步的计算量也是NP-hard的；2是如本文所述即使只是考虑单个智能体由于其不是线性二次最优型，采用经典的动态规划来求解其计算量依然是指数级别的。针对以上两个主要难点和问题，本文先采用对偶分解的方法将耦合约束松弛后即可将多智能体的问题分解为多个单智能体的问题，然后针对单智能体的问题本文进一步采用近似动态规划的方法来求解。可以说该文章就是将对偶分解和近似动态规划两种方法结合起来处理多智能体强化学习的问题，就单一的方法来说都是比较常见的方法，但将这两者结合起来并且解决了一个比较时髦的问题，做到了传统数学优化，近似动态规划和多智能体三者的完美结合。

精选论文 (三)

论文题目：Shop scheduling in manufacturing environments: a review

期刊：International Transactions in Operational Research

发表年份：2022

作者：C. R. H. Márquez and C. C. Ribeiro

原文链接：

https://doi.org/10.1111/itor.13108

摘要：

我们回顾了有关制造系统中车间调度问题的文献，揭示了在针对制造环境的调度理论中使用多影响大的概念和方法。我们将主要介绍加工车间和流水车间问题及其变形。我们强调调度功能和制造范式之间的相互作用，例如工业 4.0、计算机集成制造、计算机辅助工艺过程设计、高级排产与调度，集成计划和调度。我们描述了调度生态系统的主要组件和特征，并讨论了调度如何与组成它的组件交互以及是如何受到它们的影响的。根据数字图书馆（ScienceDirect、Scopus 和 Elsevier）收集到的元数据使我们能够根据科学出版物和研究趋势来描述调度生态系统中主要概念从2000年至2020年间的历史演变。

文章亮点/点评：近年来随着工业4.0，智能制造等概念的兴起，生产调度问题又被人们重视起来。毫无疑问生产调度将会在工业4.0和智能制造中起到关键作用，而同时企业的数字化和信息化也为生产调度，高级排程排产的落地提供了更多的可能性。本文将回顾从2000至2020年间，生产调度问题的研究趋势和变化。

精选论文 (四)

论文题目：Hybridizing adaptive large neighborhood search with kernel search: a new solution approach for the nurse routing problem with incompatible services and minimum demand

期刊：International Transactions in Operational Research

发表年份：2022

作者：A. Gobbi, D. Manerba, R. Mansini and R. Zanotti

原文链接：

https://doi.org/10.1111/itor.13127

摘要：

全球人口的平均年龄在近几十年稳定增长，受慢性疾病折磨并急需治疗的人口数量也在随之增长。医院治疗相对昂贵并且经常不安全，尤其对于老年人而言。这在全球新冠疫情肆虐的当下尤为显著。因此，在家治疗在治疗需求激增的当下逐渐成为一个宝贵的候选项，它能保证高质量的服务以及在面对脆弱病人时的低风险。这个新兴的治疗模式需要对医疗服务机构的再定义以及对稀缺资源（例如空闲的护士）的优化。在本文中，我们研究了一个护士路径问题，尝试寻找一个在降低医疗价格和病人的福祉之间的权衡，同时考虑一些现实的运营限制，例如护士的最大工作时长，以及在同一个病人身上同时可进行的服务之间的不兼容性。我们首先提出了一个混合整数线性规划的模型，并利用一些可行的不等式来强化这个模型。我们采用一个简单的分支剪界算法得到了一个基准。在这基础上，为了更高效地求解这个问题，我们提出了一个自适应大规模领域搜索混合核搜索的算法，并在一个包含了多个场景的实际问题中检验了这个算法的表现。计算检验展示了我们的Matheuristic方法即使在大多数难度较大的设定中也能在一个合理时间内找到了好的结果。最后，我们通过一些经济学分析讨论了一些有趣的管理洞见。

文章亮点/点评：本文的模型和算法不如作者们想探讨的问题本身抓人眼球。抓着新冠疫情这个热点问题，近两年各个领域的各种期刊已经发表了不少的文章，要再想搭上这班车只能在数据的创新性和模型的复杂性上卷起来。本文也展示了一个典型的运筹学的应用型文章的思路：建模（经常是诸如整数规划之类的高度非凸问题）->经典算法求解->定制算法求解->结果分析与讨论。如何把现实场景中的问题抽象化并转化为简洁的数学公式，以及如何定制高效的求解算法，通常是我们在一篇优秀的应用类文章中希望学习的地方。

精选论文 (五)

论文题目：Data-Driven Optimization for Commodity Procurement Under Price Uncertainty

期刊：Manufacturing & Service Operations Management

发表年份：2021

作者：Christian Mandl, Stefan Minner

原文链接：

https://doi.org/10.1287/msom.2020.0890

摘要：

问题定义: 我们研究一个应用驱动的价格不确定性下利用远期合约和期权的多阶段随机商品采购问题。现有的方法都是基于一个参数化的价格模型，这不可避免的会造成价格模型的偏差以及泛化误差。学术/应用相关性：我们提出了一个非参数化的数据驱动方法，它与最优采购策略的结构一致，但是不需要对价格的随机模型做出先验设定与估计。在历史价格数据的基础上，数据驱动的方法能够利用实时的特征数据，例如经济指标等，来求解。方法论：本文为动态商品采购的指导性（prescriptive）分析提供了一个框架，包含了从数据中通过最小化成本的混合整数规划学到的最优的采购策略，它是一个以上述特征为输入的函数。因此，我们数据驱动的方法侧重于最优决策而非最优预测。除此之外，我们结合了优化以及机器学习中的正则化思想，从噪声中提取决策相关的数据。结果：基于数值试验以及实证数据，我们发现当采购策略的参数是以特征为输入的函数的形式被学习的时候，商品采购的特征数据有显著的价值。但是，过拟合会使数据驱动的解的表现变差，这要求我们需要用一些机器学习的拓展来提升样本外的泛化能力。与一个内部的实践中最优的基准相比，我们数据驱动的方法在10年的回测实验中平均每年能节省大约910万欧元（4.33%）。管理洞见：数据驱动方法的一个实践价值是它能做出简单但最优的结构化的决策规则，这个规则易于解释并且容易应用。除此之外，数据驱动的方法能够被泛华并应用到非常多其他的采购场景中

文章亮点/点评：本文是一篇漂亮的实证研究论文，它采用的数据驱动优化的方法延续了OR Paper Weakly前两期提到的几篇文章的思想，但它在实际的场景与数据下的测试是让这篇文章脱颖而出的一大亮点。同样是应用驱动的研究，把本文和精选论文（四）对比，我们可以看到一篇MSOM级别的文章对故事的完整性要求更高，看问题的角度需要更多元，例如本文对数据驱动方法当中数据的价值有详细地探讨。另外，利用金融衍生品辅助诸如商品采购等运营的决策是一个有意思的课题，熟悉的读者知道期权等衍生品的交易策略本身就非常复杂，与运营决策相结合使得问题难上加难。设想：如果我们把库存管理策略也加入问题当中，我们要怎么建模以及求解呢？

精选论文 (六)

论文题目：Recent Advances in Multiarmed Bandits for Sequential Decision Making

期刊：Tutorials in Operations Research

发表年份：2019

作者：Shipra Agrawal

原文链接：https://doi.org/10.1287/educ.2019.0204

摘要：

强化学习是面对一个未知系统动力学模型的环境下连续决策问题的一个非常一般化的框架。强化学习算法通过历史行动的输出来学习系统的动力学模型并改进决策者的策略。随机多臂老虎机问题是强化学习的一个特殊场景，其中每一个行动的回报是独立的，并且每一个行动的回报在不同的时间点是独立同分布的。随机多臂老虎机问题有很多高效算法，以及严格的对算法表现的接近最优的理论保证。这个教程讨论了连续决策模型中一些基于基本多臂老虎机设定的最新进展。具体而言，我们讨论了介于多臂老虎机和强化学习之间的三个模型的进展：（1）情境老虎机（contextual bandits）；（2）组合老虎机（combinatorial bandits）；（3）带有长时间约束（long-term constraints）与不可加（non-additive）奖励的老虎机。这些模型加入了远超多臂老虎机覆盖范围的设定，取消了诸如稳态分布、不同行动或者不同时间反馈的独立性等假设。这个教程讨论了这些模型的设计与分析的最新算法，并且讨论了在它们在不同领域的应用，例如线上广告、推荐系统、众筹、医疗、网络路径、选品优化、收益管理和资源分配。

文章亮点/点评：多臂老虎机问题虽然是强化学习的一个特殊情况，但是研究者们对此类问题的传统设定已经有了非常多严谨的理论结果，尤其是对于各种算法的regret的下限。近几年，通过情境变量（contextual variables）来简化模型从而提升模型表现，亦或是考虑更复杂的多臂老虎机的应用，例如带复杂约束或者面对非稳态环境，逐渐成为研究热点。这篇文章对这些新模型和算法做了整理和讨论，尤其是它们在不同领域的各式各样的应用，非常值得一读。（P.S. 本文作者是哥伦比亚大学工业工程与运筹系新晋副教授，是这个领域的大牛哦）