论文速递 | 八月上旬·Operation Research·文章精选

本文链接：https://blog.csdn.net/weixin_53463894/article/details/132679443

八月的八篇OperationResearch论文聚焦数据驱动决策、市场策略和库存管理，涉及医院入院控制的在线学习、新闻供应商模型的利润估算、波动市场中的限定价策略、库存控制与学习等问题，为运营和供应链管理提供了创新思路。

摘要由CSDN通过智能技术生成

推文作者：周梓渊

编者按

本期论文导读选取了8月来自Operation Research的六篇文章，内容涵盖数据驱动决策、市场策略、库存管理等多个主题，展示了近期的学术进展。

这些文章在数据驱动决策方面有着共同的关注点。第一篇文章以数据驱动的方式处理医院入院控制，通过在线学习和遗憾分析来适应患者需求，实现资源的最优分配。第二篇文章探究了在新闻供应商模型中利润估计误差的数据驱动方法，为实时预测提供了纠正的途径。第五篇文章研究了背景情境下的逆优化，以及如何从oracle的动作中学习最优决策，这也是一种基于数据驱动的决策方法。

其次，这些研究都与市场策略和定价决策相关。第三篇文章探讨了在波动市场中的战略定价问题，分析了现有参与者如何通过限制定价来影响竞争者，同时考虑市场需求和历史最低值的影响。这与第四篇文章中在线最小峰值作业调度问题的竞争性算法相呼应，都涉及到了资源的优化配置和价格决策。

这些研究为提升运营和供应链管理的效率、准确性和灵活性提供了深刻见解，将启发责任人如何对实际业务施加具有积极影响的决策。

文章1

Data-Driven Hospital Admission Control: A Learning Approach

数据驱动的医院入院控制：一种基于学习的方法

基本信息

● 作者：Mohammad Zhalechian , Esmaeil Keyvanshokooh , Cong Shi , Mark P. Van Oyen

● 发表时间：2023-08-10

● 原文链接：https://doi.org/10.1287/opre.2020.0481

● 关键词：

Operations and Supply Chains-运营与供应链管理
online learning-在线学习
bandit-老虎机
regret analysis-遗憾分析
data-driven admission control-入院控制
readmission-二次入院

主要内容

在患者入院时选择适当的护理单位是一个具有挑战性的任务，因为患者特征各异，患者需求不确定，而重症监护和中级护理病床数量有限。护理单位的安排决策涉及权衡更好的健康结果带来的好处，与为未来可能出现的为更复杂患者保留更高级别护理床位的机会成本。
通过专注于降低患者的再入院风险，本研究开发了一种在线算法，用于在有限的可重复使用医院病床存在下进行护理单位的安排。
该算法旨在（i）通过批处理学习和延迟反馈来自适应地了解患者的再入院风险，以及（ii）基于观察到的信息和护理单位的占用水平为患者选择最佳的护理单位安排。
结果证明了本研究的在线算法具有贝叶斯遗憾界，同时研究者还使用医院系统数据对研究的方法进行了调查和评估。数值实验表明，研究者提出的方法胜过了不同的基准策略(baseline)。

贝叶斯遗憾界：指在贝叶斯框架下，衡量一个决策算法的性能优劣的一种指标。它用于评估一个算法在不同决策场景中所可能达到的最优性能与实际性能之间的差距。

文章2

Technical Note—Data-Driven Profit Estimation Error in the Newsvendor Model

技术说明 — 新闻供应商模型中数据驱动的利润估计误差

基本信息

●作者：Andrew F. Siegel , Michael R. Wagner

●发表时间：2023-08-09

●原文链接：https://doi.org/10.1287/opre.2023.0070

● 关键词：

Operations and Supply Chains-运营与供应链管理
newsvendor-新闻供应商
estimation error-估计误差
statistics-统计学
data-driven-数据驱动

主要内容

在这篇技术说明中，研究者发现了在数据驱动的新闻供应商模型中朴素地估计预期利润时，存在的统计显著误差，并展示了如何进行纠正。
具体来说，本文分析了一个新闻供应商模型，其中连续需求分布未知，只有一组需求数据的样本可用。在这种情况下，实际需求分布是由数据样本引起的经验性需求分布，取代了（未知的）真实分布。样本平均逼近订货量是经验性分布的关键百分位数1- / ，其中为单位收入，为单位成本。研究者证明，如果使用经验性分布来估计预期利润，这个估计会呈现出正的、统计显著的偏差。
本研究只依赖于和以及数据样本推导了这个偏差的闭合形式表达式，然后使用这个偏差表达式来设计一个调整后的预期利润估计，并进一步证明这个估计在渐近意义下是无偏的。数值假设检验实验证实了未经调整的估计误差在统计上是显著的，而经过调整的估计误差与零之间没有显著差异。
在数值实验中，这种偏差被证明是不可忽视的：因为对于对数正态和正态分布的需求来说，未经调整的误差分别占真实预期利润的2.4%和3.0%；而对于指数分布需求的精确有限样本结果的更详细探讨表明，估计误差百分比可能会更大。

文章3

Strategic Pricing in Volatile Markets

波动市场中的战略定价

基本信息

● 作者：Sebastian Gryglewicz , Aaron Kolb

●发表时间：2023-08-03

● 原文链接：https://doi.org/10.1287/opre.2021.0550

● 关键词：

Decision Analysis-决策分析
limit pricing-限制定价
market entry-市场进入
signaling-信号传递
optimal stopping-最优停止
stochastic games-随机博弈

主要内容

本文研究在受持续需求冲击影响的市场中通过限制定价进行动态入市阻挡。
该研究关注动态入市阻止的策略，即现有公司（现有参与者）通过战略性地设定价格来阻止潜在的入市者进入市场。现有参与者的目标是维持其市场地位，阻止新竞争者进入。现有参与者拥有关于其成本的私有信息，成本可能是高的或低的。这些信息影响现有参与者设定价格并有效地阻止潜在的入市者。
潜在的入市者对现有参与者的成本有不完全信息，其决定是否入市基于贝叶斯推理。贝叶斯概率理论用于根据新信息更新对现有参与者成本的信念；不可逆的入市：潜在的入市者可以在任何时候做出不可逆的入市决策，但需支付固定成本。一旦做出决策，该入市者将成为市场中的竞争者。市场需求被描述为按照几何布朗运动演化，这是一种常用于描述随时间变化的股票价格或其他数量的数学模型。
当市场需求低时，入市的威胁较远，现有参与者对进一步的阻止几乎没有益处。在这种情况下，薄弱的现有参与者可能会受到诱惑，通过提高价格来暴露其类型。当市场需求相对于现有参与者当前声誉足够高时，入市者进入市场。这表明高需求可能会使入市对入市者更具吸引力。
研究者刻画了一个唯一的均衡，在这个均衡中存在路径依赖性，定价和入市决策不仅受市场当前规模的影响，还受其历史最低值的影响。这意味着过去的市场状况在塑造当前决策方面起到作用。

文章4

Competitive Algorithms for the Online Minimum Peak Job Scheduling

竞争性算法用于在线最小峰值作业调度

基本信息

● 作者：Célia Escribe, Michael Hu, Retsef Levi

●发表时间：2023-08-02

● 原文链接：https://doi.org/10.1287/opre.2021.0080

● 关键词：

Optimization-优化
bin packing-装箱问题
online algorithm-在线算法
competitive analysis-竞争性分析

主要内容

这篇论文描述了一个基本的在线调度问题，称为最小峰值作业调度（MPJS）问题。
在这个问题中，有一系列到达的作业，每个作业都有一个指定的所需的计划时间，用于一个稀缺且可重用的资源单位。目标是在到达时将每个作业安排在一个调度时间段内，以最小化结果的峰值利用率（即在整个调度时间段内同时使用的最大单位数量）。
MPJS问题涵盖了许多实时预约调度的实际场景。其离线版本中，所有作业都可以预先被知晓，等价于著名的装箱问题，其中作业对应于物品，资源单位对应于箱子。然而，MPJS的在线变体允许额外的灵活性，最初只需要承诺于调度时间，但对资源的分配可以稍后进行。在装箱问题中，这对应于在箱子之间移动物品的能力。
一些松弛的在线装箱问题的版本已经被研究过，但没有一个从根本上捕捉到本文中研究的MPJS模型。本文描述了MPJS问题的第一个竞争性在线算法，称为谐波重匹配（HR）算法。分析表明，HR算法的渐近竞争比低于1.5。目前随机在线算法对于装箱问题的最佳下界为1.536，这凸显了这两个相关模型之间的根本差异和本文算法的有效性。

文章5

Contextual Inverse Optimization: Offline and Online Learning

背景情境下的逆优化：离线与在线学习

基本信息

● 作者：Omar Besbes , Yuri Fonseca , Ilan Lobel

●发表时间：2023-08-02

● 原文链接：https://doi.org/10.1287/opre.2021.0369

● 关键词：

Optimization-优化
contextual optimization-上下文情境优化
online optimization-在线优化
imitation learning-模仿学习
inverse optimization-反向优化
learning from revealed preferences-从显露的偏好中学习
data-driven decision making-数据驱动的决策制定

主要内容

本文研究了具有反馈信息的离线和在线情境下的上下文优化问题，其中研究者观察到的不是损失，而是在事后观察到具有完全了解目标函数的oracle将采取的最优行动。
研究者的目标是最小化遗憾，遗憾被定义为我们的损失与被全知oracle所产生的损失之间的差异。在离线情境下，决策者可以利用过去一段时间的信息并需要做出一项决策，而在在线情境下，决策者会基于每个周期中的新一组可行动作和上下文函数在时间上动态优化决策。
对于离线情境，本文刻画了最优的极小极大策略，建立了可以根据数据引发的信息的基本几何性能。在在线情境中，研究者利用这种几何特征来优化累积遗憾。本文进一步开发了一个算法，它产生了这个问题的首个遗憾界，其在时间范围内呈对数形式。最后，通过模拟表明，研究者提出的算法优于过往文献中的方法。

Oracle: 指一个具有完全关于目标函数的知识的实体，类似于一个"神奇的智者"，能够在不进行实际计算的情况下，直接提供给定输入的目标函数的值。在优化问题中，oracle通常用来模拟对目标函数的访问，用于评估候选解的质量。在一些优化算法或学习算法中，oracle可以提供函数值、梯度、甚至是黑箱函数的一些性质，以便算法能够在不显式计算目标函数的情况下进行优化或学习。

文章6

Inventory Control and Learning for One-Warehouse Multistore System with Censored Demand

带有被审查需求的单仓多店系统的库存控制和学习

基本信息

● 作者：Recep Yusuf Bekci , Mehmet Gümüş , Sentao Miao

●发表时间：2023-08-02

● 原文链接：https://doi.org/10.1287/opre.2021.0694

● 关键词：

Operations and Supply Chain-运营与供应链管理
inventory control-库存控制
demand learning-需求学习
one-warehouse multistore system-单仓多店系统
inventory allocationcensoring-库存配置审查
heuristics-启发式算法

主要内容

受与欧洲最大的快时尚零售商之一的合作启发，本文研究了一个称为单仓多店（OWMS）问题的二级库存控制问题，其中需求分布是未知的。
该系统具有一个中央仓库，在有限时间内接收初始补货，并在每个时间段将库存分配给多个店铺。目标是最小化总期望成本，其中包括装运、持有、售失和期末处置成本。OWMS系统在供应链管理中无处不在，然而即使在完整需求分布情况下，其最优策略也难以计算。
在这项工作中，研究者考虑了当需求被审查且其分布是未知的情况下的OWMS问题。在需求被审查的情况下，主要挑战在于生成无偏的需求估计。为了解决这个问题，本文提出了一个原始-对偶算法，在该算法中，模型持续学习需求并即时做出库存控制决策。结果表明，本文提出的方法在理论和实证表现上都非常出色。