OR Paper Weekly (2)| 深度强化学习在库存管理、自动驾驶等领域的应用；MS主编看管理科学发展历史与展望

本文链接：https://blog.csdn.net/weixin_53463894/article/details/128230048

作者：徐思坤，姜凯雯

精选论文（一）

论文题目: Can Deep Reinforcement Learning Improve Inventory Management? Performance on Lost Sales, Dual-Sourcing, and Multi-Echelon Problems

期刊: Manufacturing & Service Operations Management

发表年份: 2021

作者: Joren Gijsbrechts, Robert Boute, Jan Van Mieghem, Dennis Zhang

原文链接:

https://doi.org/10.1287/msom.2021.1064

摘要：

问题定义: 深度强化学习（DRL）是否能高效地求解库存问题？学术/应用相关性：DRL在游戏和机器人中已经有着成功的应用，供应链的学者和企业们也对它在库存管理中的潜力充满了兴趣。我们对DRL在三个经典且intractable的库存管理问题中的表现做了严格地衡量：销售损失（lost sales），双源采购（dual sourcing），多层级库存管理（multi-echelon）。方法论：我们将每个库存问题建模成马尔可夫决策过程，并在不同的参数设定下应用了异步优势Actor-Critic（A3C）算法。结果：我们发现A3C算法表现非常接近文献中的SOTA（state-of-the-art）启发式算法以及其他的近似动态规划算法。虽然一开始的调参对于计算资源和时间要求非常高，但是对于其他研究的问题所需调整的参数需要的改变非常少。管理洞见：我们的研究佐证了DRL可以高效地求解稳态库存问题。这在没有为问题具体设计的启发式算法的时候非常地有价值。但是，生成带结构的策略洞见或者设计特殊的接近最优（且能证明）的策略仍然需要探索。

文章亮点/点评：从这篇文章我们能很清楚地看到商学院和工学院做ML/DL/RL类研究的区别，前者侧重管理洞见（business insight），但方法论相对落后，后者则更加注重方法论上的创新。虽说风格不同无所谓优劣，但像本文一样仅将一个A3C应用在几个经典问题上，日后再想发UTD几乎不可能，本文之所以能发编者觉得第一个吃螃蟹的成分比较大，毕竟创新型和难度上本文与一个课程项目无异。另外这也告诉我们，要想发MS/MSOM/POM等商学院顶刊，有时候讲好一个故事比方法论本身更重要。

精选论文（二）

论文题目: Survey of Deep Reinforcement Learning for Motion Planning of Autonomous Vehicles

期刊: IEEE Transactions on Intelligent Transportation Systems

发表年份: 2022

作者: Szilárd Aradi

原文链接:

10.1109/TITS.2020.3024655

摘要:

近年来，自动驾驶汽车领域的学术研究在传感器技术、V2X 通信、安全、安保、决策、控制，甚至法律和标准化规则等多个主题方面取得了很高的知名度。除了经典的控制设计方法外，几乎所有这些领域都存在人工智能和机器学习方法。另一部分研究侧重于运动规划的不同层次，例如战略决策、轨迹规划和控制。机器学习本身已经开发了广泛的技术，本文描述了其中一个领域，即深度强化学习 (DRL)。该论文提供了对分层运动规划问题的深入了解，并描述了 DRL 的基础知识。设计这样一个系统的主要元素是环境建模、建模抽象、状态描述和感知模型、适当的奖励以及底层神经网络的实现。本文描述了车辆模型、仿真可能性和计算要求。提出了关于不同层和观察模型的战略决策，例如连续和离散状态表示、基于网格和基于相机的解决方案。该论文调查了由自动驾驶的不同任务和级别系统化的最先进的解决方案，例如汽车跟随、车道保持、轨迹跟随、合并或在密集交通中驾驶。最后，讨论了未解决的问题和未来的挑战。

文章亮点/点评: 本文介绍了近年来自动驾驶汽车功能的运动规划在深度强化学习 (DRL) 方法上取得的成就。将深度神经网络用于自动驾驶汽车可以开发“端到端”解决方案，使系统像人类驾驶员一样运行：它的输入是旅行目的地、关于道路网络的知识和各种传感器信息，输出是直接的车辆控制命令，例如转向、扭矩和制动。对自我车辆的运动进行建模是训练过程的关键部分，因为它提出了模型准确性和计算资源之间的权衡问题。不同的深度强化学习技术可以有效地用于不同级别的自动驾驶汽车的运动规划问题。这些方法的主要优点是它们可以处理非结构化数据，例如原始或稍微预处理的雷达或基于相机的图像信息。总体而言，安全强化学习理论是一个动态发展的领域，除了本文和其中的应用，另外推荐大家阅读Philip S. Thomas在2015年的PhD论文Safe Reinforcement Learning来找到具体解决方案的理论细节。

精选论文（三）

论文题目: Inventory Balancing with Online Learning

期刊: Management Science

发表年份: 2022

作者: Wang Chi Cheung, Will Ma, David Simchi-Levi, Xinshang Wang

原文链接:

https://doi.org/10.1287/mnsc.2021.4216

摘要:

我们研究一类通用的问题，有关如何在不同的时间下将有限的资源分配给不同质（heterogeneous）的顾客，同时考虑模型不确定性。每一种顾客可以被不同的行动服务，每一种行动会随机地消耗一种资源的组合，并返回不同的奖赏。我们考虑一个通用的模型，其中每一个顾客类型-服务的组合的资源消耗分布未知，但是是一致（consistent）并能够被学习的。并且，到达的顾客类型的序列是任意并且完全未知的。我们通过审慎地同步两个文献中的算法框架，克服了模型不确定性和顾客不同质性，它们分别是库存平衡和在线学习，前者给予竞争比例分析（competitive ratio analysis）对每一种资源都为可能较晚到达的高奖赏客户类型保留了一部分资源，后者基于后悔值分析探索（explore）每一个顾客在不同的服务下的资源消耗分布。我们定义了一个辅助问题，它能让现存的竞争比例与后悔值边界（regret bound）无缝融合。除此之外，我们还提出了一个上置信区间（UCB）方法的变种方法：dubbed lazyUCB，它在资源稀少的情况下更少地探索而更多的开发（exploit）。最后，我们搭建了一组信息理论的反例，来展示我们的整合框架能够达到最好的表现。我们在带随机奖赏的在线匹配问题的仿真样例以及一个公开的酒店数据集上都证明了我们算法的效果。我们的框架非常实用，体现在它不需要历史数据（不需要拟合客户选择模型或者预测顾客到达的模式），并且能够被用于在快速改变的环境中初始化分配策略。

文章亮点/点评: 又是一篇大佬云集的文章。本文的问题设定能通用于非常多不同的场景，考虑在连续决策场景下学习未知需求的同时最大化收益，是一篇非常有启发性的文章。许多我们实际应用场景中遇到的问题，例如如何应对不同质的顾客、如何搭建一个能够求解并且符合实际场景的模型、如何估计模型参数、如何平衡需求探索与利益最大化等等。几乎任何一个供应链、收益管理应用都需要或多或少的面对这些问题，因此强烈推荐本文！

精选论文（四）

论文题目: Analytical Solution to a Discrete-Time Model for Dynamic Lea-rning and Decision Making

期刊: Management Science

发表年份: 2022

作者: Hao Zhang

原文链接:

https://doi.org/10.1287/mnsc.2021.4194

摘要:

动态学习与决策问题总是非常难求得解析解。我们研究一个无限期离散时间模型，它有一个未知的常数状态，这个状态有两个可能的取值。作为一个特殊的部分观测马尔可夫决策过程（POMDP），这个模型整合了几个类型的学习并行动（learning and doing）问题，例如连续假设检验、带需求学习的动态定价、多臂老虎机。我们基于连续值向量的有效边界从POMDP的文献中选取了一个较新的求解框架。这个框架同时采用了多个不同的最优条件。在无限期设定中，在一组信号质量指标地帮助下，有效边界上的极值点可以通过一组差分函数连接起来并解析地求解。这个解与连续时间模型下的解有着相似的结构特性，它为在离散时间模型中做出新的发现提供了一套新的工具。

文章亮点/点评: 本文为一种特殊假设下的POMDP提供了解析解，从应用角度而言，本文没有太大的参考价值，毕竟能够被该假设表征的实际问题少之又少，但是从理论角度而言，本文是一篇很完整且极具参考价值的求解POMDP的范例。在我们遇到需要有POMDP建模的实际场景时，这篇文章以及它参考的文献能够给我们寻找模型的解析解提供很好的思路。毕竟，解析解总是比数值解更高效、更精准、更易理解的。

精选论文（五）

论文题目: Solving the shortest path interdiction problem via reinforcement learning

期刊: International Journal of Production Research

发表年份: 2021

作者: Dian Huang, Zhaofang Mao, Kan Fang, and Lin Chen

原文链接:

https://doi.org/10.1080/00207543.2021.2002962

摘要:

本文解决了最短路径拦截问题，其中领导者旨在最大化跟随者可以在有限拦截预算下穿越的最短路径的长度。为了解决这个问题，我们提出了一个强化学习框架，并使用指针网络来处理可变输出大小的情况。为了评估我们提出的强化学习模型的性能，我们对从两种不同的网络拓扑（即网格网络和随机图）生成的一组实例进行了广泛的计算实验。为了训练指针网络，我们考虑了三种不同的基线，即指数基线、临界基线和滚动基线，其中滚动基线策略实现了最佳计算结果，因此在我们的计算实验中被用作默认基线。此外，当实例的大小增加时，我们发现求解该问题的等效单级混合整数规划可能非常耗时，而我们提出的强化学习方法仍然可以有效地为两个网格网络获得具有良好性能的解决方案和随机图。

文章亮点/点评: 作为一个典型的网络拦截问题，最短路径拦截问题多年来在运筹学界引起了许多研究人员的关注。这个问题的许多应用可以在实际环境中找到，例如核走私、危险材料运输、采购规划、边境监视和人口贩运（以上均为原文章中的举例，可以追溯到参考文献中，小编读完瑟瑟发抖）。言归正传，在这篇文章中，作者提出了一个用强化学习解决最短路径拦截问题（即 MXSP 问题）的框架，其中引入了指针网络来处理 MXSP 问题的可变输出大小的情况。结果表明，推出基线策略可以实现最佳性能。感兴趣的同学们快冲去读！

精选论文（六）

论文题目: Management Science: The Legacy of the Past and Challenge of the Future

期刊: Management Science

发表年份: 2020

作者: Wallace Hopp, David Simchi-Levi

原文链接:

https://doi.org/10.1287/mnsc.2020.3618

摘要:

这篇论文借管理科学杂志65周年的契机回顾它在促进与鼓励管理科学的发展与应用的主要目标下的表现如何。我们也突出强调了近年来那些对我们的主要目标有着深远影响的研究趋势，并讨论了一些最近这些趋势相关的动议。

文章亮点/点评: 本文产自两位MS主编大佬，他们从编辑的角度出发，探讨了MS的发展历程以及对未来的展望。发展历程：（1）金融板块的发表数量领先所有板块，原因在于近年来金融科技的发展需要传统金融、经济学、以及博弈论、合同设计、运营管理等领域技巧的高度融合。（2）MS吸引了很多诺贝尔奖获得者的投稿，在上世纪70年代的时候，博弈论中许多开创性的研究都发表于MS，当然其中一个原因是博弈论对于当时的经济学顶刊如Econometrica等过于前沿，难以发表。这也带出了两位主编希望探讨的第三点：(3）编辑部应该如何鉴别好文章。他们用两篇经典论文，分别是提出柔性生产和牛鞭效应的文章，来说明鉴赏一些具有划时代意义的文章难度之大。两位主编透露了当时这两篇经典文章在发表过程中受到的层层阻碍，并把它们的最终发表归功于两位板块主编独到的眼光。同时他们也提到了一篇“冷聚合”相关的文章，在发表仅数周后就因为无法复现而被迫撤稿，却已经造成了许多实验人员巨额的实验经费，并借此说明编辑们的type 1 error可能带来的危害。（4）采用合成数据的研究越来越少，而使用真实数据的研究越来越多，但是市场营销和运营管理领域中采用真实数据的文章数量却远不如金融和信息系统领域。（5）MS论文的平均长度也在逐年增加（越来越卷）。未来展望：（1）编辑部会越来越保守，以此减少type 1 error；（2）一些两位主编认为非常重要的领域：数字化与自动化；数据分析；医疗；共享经济。最后两位主编也提到了一些MS期刊会采取的一些诸如板块架构调整、特殊刊号、快速投稿通道等行动。本文从编辑们的角度来看期刊的发展历程与审稿过程，对于我们投稿人而言有着非常重要的参考价值，非常推荐大家阅读！