ORL：在线随机优化问题的强化学习基准翻译

最新推荐文章于 2024-01-05 00:53:19 发布

zzzzz忠杰

最新推荐文章于 2024-01-05 00:53:19 发布

阅读量517

点赞数

分类专栏： RL&OR 文章标签：深度学习

本文链接：https://blog.csdn.net/weixin_43889128/article/details/121943104

版权

RL&OR 专栏收录该内容

56 篇文章 14 订阅

订阅专栏

摘要

强化学习 (RL) 在机器人和游戏等领域取得了最先进的成果。我们通过将 RL 算法应用于一系列具有一系列实际应用的典型在线随机优化问题，以之前的工作为基础：Bin Packing、Newsvendor 和 Vehicle Routing。虽然有将 RL 应用于这些问题的新生文献，但没有普遍接受的基准可用于在性能、规模或普遍性方面严格比较所提出的方法。本文旨在填补这一空白。对于每个问题，我们都应用标准方法以及更新的 RL 算法并分析结果。在每种情况下，经过训练的 RL 策略的性能都与相应的基线竞争或优于相应的基线，而对领域知识的要求并不高。这突出了 RL 在现实世界动态资源分配问题中的潜力。

1引言

强化学习 (RL) 在游戏（Silver 等人，2017 年）、机器人（Andrychowicz 等人，2018 年）等领域取得了最先进的成果。我们的工作涉及越来越多的将 RL 应用于优化问题的文献。（贝洛等人。
2016 年）显示 RL 技术为旅行商 (TSP) 和背包问题提供了近乎最优的解决方案。
（Kool、van Hoof 和 Welling 2018）使用 RL 来解决 TSP 及其变体：车辆路线、定向以及奖品收集 TSP 的随机变体。 (Nazari et al. 2018) 解决了车辆路线问题的静态和在线版本。（Gijsbrechts 等人，2018 年）将 RL 应用于双重采购库存补货问题，并在真实数据集上进一步展示结果。（Kong 等人，2018 年）将 RL 应用于背包、秘书和 Adwords 问题的在线版本。（Oroojlooyjadid 等人，2017 年）将强化学习应用于啤酒游戏问题。（Lin 等人，2018 年）在现实生活数据集上使用 RL 对出租车进行车队管理。
我们的贡献是将现有的 RL 文献扩展到一组与现实世界问题平行的动态资源分配问题。特别是，我们提出了三个经典问题的基准：Bin Packing、Newsvendor 和 Vehicle Routing。在每种情况下，我们都展示了训练有素的车辆路由策略。在每种情况下，我们都表明，来自具有简单 2 层神经网络的开箱即用 RL 算法的训练策略与既定方法竞争或优于现有方法。我们开源我们的代码1并参数化问题的复杂性，以鼓励算法贡献的公平比较。每个环境都使用 OpenAI Gym 接口 (Brockman et al. 2016) 实现并与 RLlib (Liang et al. 2018) 库集成，因此研究人员可以复制我们的结果、测试算法和调整超参数。

2装箱

在装箱问题的经典版本中，我们得到不同大小的物品，需要将它们装到尽可能少的箱子中。在在线随机版本中，项目一次到达一个，项目大小来自固定但未知的分布。运筹学和计算机科学中的许多资源分配问题都面临着不确定的供应，并且可以被视为在线装箱问题的变体。在仓库和运输操作中，可以在以下方面看到装箱的变体：订单分配问题（我们将订单分配给履行资源）、手提袋包装问题（我们将物品到达手提袋以进行装运）和拖车卡车包装问题。在计算中，在云计算场景中会出现装箱问题，其中将具有不同内存和cpu要求的虚拟机分配给容量固定的服务器

3 具有提前期的多期报销商报销商问题

（参见例如 Zipkin (2000)）是库存管理中的一个开创性问题，其中我们必须决定订购决策（从供应商处购买多少商品）以涵盖单个需求不确定时期。目标是权衡当期发生的各种成本和实现的收入，通常包括销售收入、采购和持有成本、错过销售情况下的商誉损失以及未售出物品的最终残值。
在实践中，决策很少被孤立在一个单一的时期内，而且它们是重复和定期做出的，因此会对下游产生影响。与在需求分布已知时具有已知最优解的单周期 Newsvendor 相比，这使得问题变得重要并且没有已知的最优解。此外，购买的单位一般不会准瞬间到达，而是在从供应商运送到最终目的地的几个时间段（称为提前期）之后到达。
交货时间的存在使问题进一步复杂化。解决因交货时间和销售损失而导致的多期报销商问题是一个众所周知的难题（Zipkin 2008）。它需要跟踪不同时期下的订单，这导致了所谓的维度灾难，即使对于 2 和 3 期的小交货时间，任何精确的解决方案也不切实际，并且在更高的维度上完全不可行。因此，该问题为 RL 算法提供了一个很好的测试平台，因为对奖励的观察会因提前期而延迟，并且可以将其表述为马尔可夫决策问题。已经针对销售损失问题开发了许多启发式方法，通常基于具有积压需求的等效模型的订单到位策略。已经研究了这两种策略的性能比较（Janakiraman、Seshadri 和 Shanthikumar 2007），并且已经表明按顺序排序的策略是渐近最优的（Huh 等人，2009），从而制定了良好的基准策略.

4vrp

zzzzz忠杰

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
ORL：在线随机优化问题的强化学习基准翻译

摘要强化学习 (RL) 在机器人和游戏等领域取得了最先进的成果。我们通过将 RL 算法应用于一系列具有一系列实际应用的典型在线随机优化问题，以之前的工作为基础：Bin Packing、Newsvendor 和 Vehicle Routing。虽然有将 RL 应用于这些问题的新生文献，但没有普遍接受的基准可用于在性能、规模或普遍性方面严格比较所提出的方法。本文旨在填补这一空白。对于每个问题，我们都应用标准方法以及更新的 RL 算法并分析结果。在每种情况下，经过训练的 RL 策略的性能都与相应的基线竞争或优于
复制链接

扫一扫