A Dynamic Near-Optimal Algorithm for Online Linear Programming

zzzzz忠杰

已于 2022-06-18 22:30:06 修改

阅读量636

点赞数

分类专栏： RL&OR 文章标签：算法

于 2022-06-18 22:26:55 首次发布

本文链接：https://blog.csdn.net/weixin_43889128/article/details/125352327

版权

RL&OR 专栏收录该内容

56 篇文章 14 订阅

订阅专栏

制定许多在线资源分配问题的自然优化模型是在线线性规划 (LP) 问题，其中约束矩阵与相应的目标系数一起逐列显示。
在这样的模型中，每次显示一列时都必须设置一个决策变量，而不观察未来的输入，目标是最大化整体目标函数。在本文中，我们在随机到达顺序和 LP 右侧输入大小的一些温和条件的假设下，针对这类一般在线问题提出了一种近似最优的算法。具体来说，我们的基于学习的算法通过以几何时间间隔动态更新阈值价格向量来工作，其中从前一时期显示的列中学习到的双重价格用于确定当前时期的顺序决策。通过动态学习，我们算法的竞争力比过去对同一问题的研究有所提高。我们还提供了一个最坏情况示例，表明我们算法的性能接近最佳。
学科分类：在线算法；线性规划; 原始对偶；动态价格更新。

1 介绍

在线优化在计算机科学、运筹学和管理科学界引起了越来越广泛的关注。在许多实际问题中，数据并不是一开始就暴露出来的，而是以一种在线的方式出现的。例如，在在线收入管理问题中，消费者按顺序到达，每个人都要求一个商品子集（例如，多程航班或在酒店逗留一段时间）并提供投标价格。根据请求，卖方需要做出不可撤销的决定是接受还是拒绝投标，总体目标是在满足资源限制的同时最大化收入。
类似地，在在线路由问题中，网络容量管理器接收来自用户的一系列请求，这些请求具有网络的预期用途，每个请求都有特定的效用。
他的目标是分配网络容量以最大化社会福利。类似的格式也出现在在线拍卖、在线关键词匹配问题、在线打包问题以及各种其他在线收益管理和资源分配问题中。有关在线优化文献及其近期发展的概述，我们请读者参考 Borodin 和 El-Yaniv (1998)、Buchbinder 和 Naor (2009a) 以及 Devanur (2011)。
在上述示例中，该问题可以表述为在线线性规划 (LP) 问题。
（有时，人们会考虑相应的整数规划。虽然我们的讨论集中在这些问题的 LP 松弛上，但我们的结果自然会扩展到整数规划。有关这方面的讨论，请参见第 5.2 节。）在线 LP 问题以线性规划作为其基本形式，约束矩阵与目标函数中的相应系数逐列显示。观察输入后，必须立即做出决定，而无需观察未来的数据。准确地说，我们考虑以下（离线）线性程序：
(1)
在线 LP 问题的目标是选择 xt 使得目标函数 Pn t=1 txt 最大化。
在本文中，我们提出了解决在线 LP 问题的性能良好的算法。为了定义算法的性能，我们首先需要对输入参数做出一些假设。我们在本文中采用以下随机置换模型：假设 1. 列 aj（具有目标系数 j）以随机顺序到达。列组 4a1 1 a2 10 0 01 和 5 可以在开始时被不利地选择。但是，4a1 1 a2 10 0 01 和 5 的到达顺序均匀分布在所有排列上。
假设 2. 我们先验地知道列的总数 n。
在线问题的许多现有文献中都采用了随机排列模型（有关相关文献的全面回顾，请参见第 1.3 节）。它是使用最坏情况分析和假设输入分布已知之间的中间路径。对输入不确定性完全稳健的最坏情况分析基于算法在最坏情况输入上的性能来评估算法（例如，参见 Mehta 等人 2005，Buchbinder 和 Naor 2009b）。然而，这导致该问题的性能界限非常悲观：没有在线算法可以实现比最优离线解决方案的 O41/n5 近似更好（Babaioff et al. 2008）。相比之下，虽然先验输入分布可以在很大程度上简化问题，但分布的选择非常关键，如果实际输入分布与假设不符，则性能会受到影响。具体来说，假设 1 比假设列是独立于某些（可能未知的）分布绘制的要弱。事实上，人们可以查看 n.i.d. 列作为首先从基础分布中抽取 n 个样本，然后随机排列它们。因此，如果输入数据是 i.i.d 绘制的，我们提出的算法及其性能也将适用。从一些分布。
假设 2 是必需的，因为我们需要使用数量 n 来决定在我们的算法中学习阈值价格的历史长度。事实上，如 Devanur 和 Hayes (2009) 所示，任何算法都必须获得接近最优的性能。2 然而，这个假设可以放宽到 n 的近似知识（最多 1 ± … 乘法误差），而不影响我们的结果。
我们将在线算法的竞争力定义如下：定义 1. 令 OPT 表示离线问题 (1) 的最优目标值。如果使用A得到的在线解的期望值至少是最优离线解的c因子，则在线算法A在随机置换模型中具有竞争力。那是，
()
其中，期望取自 110 0 01 n 的均匀随机排列，xt 是算法 A 在输入按顺序到达时做出的第 t 个决策。
在本文中，我们在上述两个假设和 b 大小的下界条件下，提出了在线线性规划 (2) 的近似最优算法。我们还将我们的结果扩展到以下更一般的在线线性优化问题，在每个时间段具有多维决策：
• 考虑一系列 n 个非负向量 f1 1f2 1 0 0 0 1fn ∈ k ，mn 个非负向量
gi1 1 gi2 1 0 0 0 1 gin ∈ 601 17 k 1 i = 11 0 0 0 1 m
和 K = 8x ∈ k 2 x T e ¶ 11 x ¾ 09（我们使用 e 表示所有 1 个向量）。离线线性规划是选择x1 10 0 01 xn来求解
()
在对应的在线问题中，给定之前的 t −1 个决策 x1 10 0 01 xt−1 ，每次我们选择一个 k 维决策 xt ∈ k ，满足
(3)
使用到时间 t 的知识。目标是在整个时间范围内最大化 Pn j=1 f T j xj。请注意，问题 (2) 是问题 (3) 的特例，其中 k = 1。
1.1. 具体应用
下面，我们将展示在线 LP 模型的一些具体应用。这些例子只是该模型广泛应用中的一小部分。
1.1.1 在线背包/秘书问题。 本文研究的在线 LP 问题的一维版本通常被称为在线背包或秘书问题。在此类问题中，决策者面临一系列选项，每个选项都有一定的成本和价值，他必须以在线方式选择其中的一个子集，以便在不违反成本约束的情况下最大化总价值。这个问题的应用出现在许多情况下，例如雇用工人、安排工作和在赞助搜索拍卖中出价。
随机排列模型已被广泛应用于该问题的研究中（参见 Kleinberg 2005、Babaioff 等人 2007 及其后的参考资料）。在这些论文中，要么为有限大小的问题获得恒定的竞争比，要么为大问题提出了接近最优的算法。在本文中，我们研究了将这个问题扩展到更高维度，并为此提出了一种接近最优的算法。
1.1.2 在线路由问题。考虑一个由 m 条边连接的计算机网络；每条边 i 都有一个有界容量（带宽） bi 。有大量请求在线到达，每个请求都要求网络中 ∈ m 处的某些容量，以及请求的效用或价格。
决策者的离线问题由以下整数程序给出：
()
可以在 Buchbinder 和 Naor (2009b)、Awerbuch 等人中找到对这个问题的讨论。 (1993)，以及其中的参考资料。请注意，这个问题也以在线打包问题的名义进行了研究。
1.1.3
在线 Adwords 问题。 销售在线广告一直是谷歌、雅虎等许多互联网公司的主要收入来源。因此，提高广告分配系统的性能对这些公司来说变得极为重要，因此过去一直受到研究界的极大关注十年。
在文献中，大多数研究采用在线匹配模型，例如，参见 Mehta 等人。 (2005)、Goel 和 Mehta (2008)、Devanur 和 Hayes (2009)、Karande 等人。 (2011)、Bahmani 和 Kapralov (2010)、Mahdian 和 Yan (2011)、Feldman 等人。 (2010, 2009b) 和 Feldman 等人。（2009a）。在这样的模型中，有 n 个在线搜索查询和 m 个投标人（广告商），每个投标人（广告商）都有一个每日预算 bi。根据每个搜索关键字的相关性，第 i 个出价者将对查询 j 出价一定的 ij，以将其广告与搜索结果一起展示。3 对于第 j 个查询，决策者（即搜索引擎）必须选择一个 m 维向量 xj = 8xij9 m i=1 ，其中 xij ∈ 801 19 表示第 j 个查询是否分配给第 i 个投标人。对应的离线问题可以表述为：
(4)
(4) 的 LP 松弛是一般在线 LP 问题 (3) 的一个特例，其中 fj = Ïj , gij = ijei 其中 ei 是除第 i 个条目的 1 之外的所有零的第 i 个单位向量。
在文献中，随机排列假设最近因其易处理性和通用性而引起了极大的兴趣。已经提出了恒定竞争算法以及接近最优算法。我们将在 §1.3 中进行更全面的回顾。
1.2 关键思想和主要结果
本文的主要贡献是提出了一种在随机排列模型下以接近最优竞争比解决在线 LP 问题的算法。我们的算法基于以下观察：离线线性程序的最优解 x ∗ 可以很大程度上由最优对偶解 p ∗ ∈ m 确定，对应于 m 个不等式约束。最优对偶解作为阈值价格，使得 x ∗ j > 0 仅当 j ¾ p ∗T aj 时。我们的在线算法通过从一些初始输入中学习阈值价格向量来工作。然后使用价格向量来确定后期的决策。然而，我们的算法不是只计算一次价格向量，而是最初等到…n 步或到达，然后每次历史翻倍时计算一个新的价格向量，即在时间…n1 2…n1 4…n10 0 0 等等。我们表明，在右侧输入的大小条件下，我们的算法在随机排列模型中具有 1 - O4…5 的竞争力。我们的主要结果精确地表述如下：定理 1. 对于任何 … > 0，我们的在线算法与随机置换模型中的在线线性规划 (2) 相比具有 1−O4…5 的竞争力，对于所有输入，使得
(5)
陈述定理 1 的另一种方法是，我们的算法具有 1 − O4√ mlog n/B5 的竞争比。我们在§3 中证明了定理 1。注意定理1中的条件取决于logn，当n很大时，这远远不能满足所有人的需求。 Kleinberg (2005) 证明了 B ¾ 1/…2 是在 B 秘书问题中获得 1 − O4…5 竞争比所必需的，这是在线 LP 问题的一维对应物，所有 t 的 at = 1。
因此，定理 1 中对……的依赖性接近最优。
在下一个定理中，我们证明任何在线算法都需要依赖于 m 来获得接近最优的解决方案。它的证明将出现在§4。
定理 2. 对于随机置换模型中的在线 LP 问题 (2) 的任何算法，存在一个实例使得其竞争比小于 1 − ì4…5 当
()
或者等价地，没有算法可以实现比 1 − ì4√ logm/B5 更好的竞争比。
我们还将我们的结果扩展到 (3) 中介绍的更一般的模型：定理 3。对于任何 … > 0，我们的算法对于随机排列模型中的一般在线 LP 问题 (3) 具有 1 - O4…5 的竞争力，对于所有输入，例如：
(6)
现在我们对定理 1 和定理 3 中的条件进行一些说明。首先，条件仅取决于右侧输入 bi 并且与 OPT 的大小或目标系数无关。并且通过随机排列模型，它们也独立于输入数据的分布。从这个意义上说，我们的结果在输入数据的不确定性方面非常稳健。特别是，我们的结果的一个优点是在算法实施之前条件是可检查的，这与 OPT 或目标系数方面的条件不同。即使仅就 bi 而言，如定理 2 所示，对 … 的依赖已经是最优的，并且对 m 的依赖是必要的。
关于对 n 的依赖，我们只需要 B 的阶数为 log n，远小于投标总数 n。
实际上，对于一些小问题，条件可能很严格。
但是，如果预算太小，不难想象没有任何在线算法可以做得很好。相反，在输入量很大的应用中（例如在线广告词问题中，估计一个大型搜索引擎每天可以接收数十亿次搜索，即使我们专注于特定类别，这个数字也可以仍然是数百万）和相当大的右侧输入（例如，广告商的预算），条件不难满足。此外，定理1和定理3中的条件只是理论结果；即使条件不满足，我们的算法的性能可能仍然非常好（如 Wang 2012 中的一些数值测试所示）。因此，我们的结果具有理论和实践意义。
最后，我们用以下推论结束本节：推论 1. 在在线 LP 问题 (2) 和 (3) 中，如果约束系数的最大入口不等于 1，那么我们的定理 1 和 3 仍然成立，有条件 (5) 和 (6) 替换为
()
其中，对于每一行 i，a¯i = maxj 8aij9 in (2)，或 a¯i = maxj 8gij^9 in (3)。

1.3 相关工作
在线算法的设计和分析一直是计算机科学、运筹学和管理科学界广泛关注的话题。最近，随机排列模型越来越受欢迎，因为它避免了对抗性输入模型的悲观下界，同时仍然捕获了输入的不确定性。在该模型下研究了各种在线算法，包括秘书问题 (Kleinberg 2005, Babaioff et al. 2008)、在线匹配和 adwords 问题 (Devanur and Hayes 2009, Feldman et al. 2009a, Goel and Mehta 2008, Mahdian and 严 2011，Karande 等人。
2011, Bahmani and Kapralov 2010) 和在线打包问题 (Feldman et al. 2010, Molinaro and Ravi 2014)。
在这项工作中，获得了两种类型的结果：一种实现了独立于输入参数的恒定竞争比；另一个侧重于输入较大时算法的性能。我们的论文属于第二类。在下面的文献综述中，我们将重点放在这类工作上。
在随机置换模型中实现接近最优性能的第一个结果是由 Kleinberg (2005) 提出的，其中针对一维多选秘书问题提出了 1 − O41/ √ B5 竞争算法。
作者还证明了他的算法达到的 1 − O41/ √ B5 的竞争比对于这个问题是最好的。
我们的结果将他的工作扩展到具有竞争力 1−O4√ mlog n/B5 的多维案例。虽然问题看起来很相似，但由于是多维结构，我们的分析需要不同的算法和不同的技术。具体来说，Kleinberg (2005) 递归地应用了经典秘书算法的随机版本，同时我们根据 LP 对偶理论维持价格，并具有固定的价格更新时间表。我们还证明，对于多维问题，没有任何在线算法可以实现比 1 − ì4√ logm/B5 更好的竞争比。据我们所知，这是第一个表明依赖维度 m 的必要性的结果，以实现该问题的最佳竞争率。
它清楚地指出，高维确实增加了这个问题的难度。
Devanur 和 Hayes (2009) 研究了一种基于 LP 的方法来解决在线广告词问题。在他们的方法中，他们解决了一个线性程序一次，并利用它的双重解决方案作为阈值价格来做出未来的决策。作者证明了他们算法的竞争比为 1 - O4 3 p maxm2 log n/OPT5。在我们的工作中，我们考虑了一个更通用的模型，并开发了一种算法，以精心选择的速度更新对偶价格。通过使用动态更新，我们实现了仅取决于 B: 1 − O4√ mlog n/B5 的竞争比率。这在实践中很有吸引力，因为可以在问题解决之前检查 B，而 OPT 不能。此外，我们表明我们的结果对 B 的依赖性是最佳的。尽管我们的算法与他们的想法相似，但我们算法的动态特性需要更精细的设计和分析。我们还回答了我们应该多久更新一次双重价格的重要问题，并表明可以使用动态学习算法进行重大改进。
最近，费尔德曼等人。 (2010) 研究了一个更一般的在线打包问题，该问题允许选择集的维度在每个时间段内变化（对 (3) 的进一步扩展）。他们提出了一种一次性学习算法，该算法实现了取决于右侧 B 和 OPT 的竞争比率。并且对 B 的依赖性为 1 - O4√3 mlog n/B5。因此，与他们的竞争比率相比，我们的结果不仅消除了对 OPT 的依赖，而且提高了对 B 的依赖。
table 1
我们表明，这种改进是使用动态学习的结果。
最近，Molinaro 和 Ravi (2014) 研究了同样的问题并获得了 1 − O4p m2 logm/B5 的竞争比。他们算法的主要结构（特别是他们获得平方根而不是三次根的方式）是从本文中修改的。他们进一步使用一种新颖的覆盖技术来消除竞争比率中对 n 的依赖，代价是增加 m 的数量级。相比之下，我们提出了从立方根到平方根的改进以及如何消除对 OPT 的依赖。
Kleinberg (2005)、Devanur 和 Hayes (2009)、Feldman 等人的结果比较。 (2010)、Molinaro 和 Ravi (2014)，这项工作如表 1 所示。
除了随机排列模型，Devanur 等人。
（2011）研究了他们所谓的对抗性随机输入模型下的在线资源分配问题。该模型概括了从 i.i.d 绘制列的情况。分配; 但是，它比随机排列模型更严格。特别是，他们的模型不允许输入序列中可能存在许多“冲击”的情况。对于这个输入模型，他们开发了一种算法，可以实现 1 − O4max8 √ logm/B1 p max logm/OPT95 的竞争比率。他们的结果很重要，因为它实现了对 m 的近乎最优的依赖。然而，对 OPT 的依赖和更强的假设使其无法直接与我们的结果进行比较，并且他们的算法使用的技术与我们的完全不同。
在运筹学和管理科学界，针对各种在线收益管理和资源分配问题的动态最优定价策略一直是一个重要的研究课题；研究包括 Elmaghraby 和 Keskinocak (2003)、Gallego 和 van Ryzin (1997, 1994)、Talluri 和 van Ryzin (1998)、Cooper (2002) 以及 Bitran 和 Caldentey (2003)。在 Gallego 和 van Ryzin (1997, 1994) 以及 Bitran 和 Caldentey (2003) 中，到达过程被认为是价格敏感的。然而，正如 Cooper (2002) 所评论的，这个模型可以简化为一个价格独立的到达过程，在泊松到达下具有可用性控制。我们的模型可以进一步被视为可用性控制模型的离散版本，该模型也被用作 Talluri 和 van Ryzin (1998) 的基础模型，并在 Cooper (2002) 中进行了讨论。使用的想法门槛或“出价”价格并不新鲜。它由 Williamson (1992) 和 Simpson (1989) 提出，并在 Talluri 和 van Ryzin (1998) 中进一步研究。在 Talluri 和 van Ryzin (1998) 中，作者表明投标价格控制政策是渐近最优的。然而，他们假设了到达过程的知识，因此价格是通过使用分布信息“预测”未来而不是像我们在论文中所做的那样从过去的观察中“学习”来获得的。 Cooper (2002) 讨论了使用 LP 找到双重最优投标价格的想法，其中也实现了渐近最优。但是同样，假设到达过程是已知的，这使得分析完全不同。
本文在几个方面做出了贡献。首先，我们研究了一个通用的在线 LP 框架，扩展了许多先前工作的范围。并且由于其动态学习能力，我们的算法是无分布的——除了随机到达顺序和条目总数之外，假设没有关于输入分布的知识。此外，我们不是只学习一次价格，而是提出了一种动态学习算法，可以随着更多信息的披露而更新价格。这种算法的设计回答了 Cooper (2002) 提出的问题，即应该多久以及何时更新价格？我们通过证明以几何时间间隔（不太频繁也不太频繁）更新价格是最佳的，从而明确回答了这个问题。因此，我们提出了一种精确量化的动态价格更新策略。此外，我们为这个问题提供了一个重要的下限，这是同类问题中的第一个，表明问题的维度增加了它的难度
在我们的分析中，我们应用了许多可能近似正确学习的标准技术，特别是集中范围和覆盖论点。我们的动态学习与学习问题中使用的“加倍技巧”有着相似的想法。然而，与通常应用于未知时间范围的加倍技巧不同（Cesa-Bianchi 和 Lugosi 2006），我们表明，在经过精心设计的固定时间范围内以几何速度更新价格也可以提高性能算法。
1.4 论文结构
本文的其余部分安排如下。在 §§2 和 3 中，我们展示了我们的在线算法，并证明它在温和的输入条件下实现了 1−O4…5 的竞争比。
为了使讨论清晰易懂，我们从第 2 节开始使用更简单的一次性学习算法。尽管对这个更简单算法的分析将有助于展示我们的证明技术，但在此设置中获得的结果比通过我们的动态学习算法获得的结果要弱，这在第 3 节中进行了讨论。在第 4 节中，我们给出了定理 2 的详细证明，关于在我们的主要定理中使用下限条件的必要性。在第 5 节中，我们介绍了我们研究的几个扩展。我们在第 6 节中得出结论
2 一次性学习算法
在本节中，我们提出了一种用于在线 LP 问题的一次性学习算法 (OLA)。我们考虑以下偏线性规划，仅在输入上定义直到时间 s = …n（为了便于表示，在不失一般性的情况下，我们假设 …n 在整个分析过程中是一个整数）：
(7)
(8)
令 4p^1 y^5 为 (8) 的最优解。请注意，p^ 具有每种资源价格的自然含义。对于任何给定的价格向量 p，我们定义分配规则 xt 4p5 如下：
(9)
我们现在陈述我们的 OLA：
算法 OLA（一次性学习算法）
1 初始化 xt = 0，对于所有 t ¶ s。 p^ 定义如上。
2 对于 t = s +11 s +210 0 01 n，如果 aitxt 4p^5 ¶ bi − Pt−1 j=1 aijxj 对于所有 i，设 xt = xt 4p^5；否则，设置 xt = 0。输出 xt 。
在 OLA 中，我们使用前…n 个到达来学习对偶价格向量。然后，在每次 t > …n 时，只要不违反任何约束，我们就使用这个双重价格来决定当前的分配并执行这个决定。该算法的一个吸引人的特点是它要求我们只求解一个定义在…n 个变量上的小型线性程序。请注意，(7) 的右侧被因子 1 - … 修改。
这种修改保证了分配 xt 4p5 很可能不会违反约束。这个技巧也用在第 3 节中，我们在其中研究动态学习算法。在下一小节中，我们证明以下关于 OLA 的竞争比的命题，它依赖于比定理 1 更强的条件：命题 1。对于任何 … > 0，OLA 是 1−6… 对在线线性规划 (2 ) 在随机置换模型中，对于所有输入，使得
()
2.1 竞争比率分析
观察 OLA 一直等到时间 s = …n，然后将时间 t 的解设置为 xt 4p^5，除非它违反约束。为了证明其竞争力，我们遵循以下步骤。首先，我们证明如果 p ∗ 是 (1) 的最优对偶解，则 8xt 4p ∗ 59 接近原始最优解 x ∗ ；即，学习对偶价格足以确定一个接近的原始解决方案。然而，由于这些列是以在线方式显示的，我们无法在决策期间获得 p*。相反，在我们的算法中，我们使用 p^ 作为替代。然后我们证明 p^ 是 p ∗ 的一个很好的替代品： (1) 很有可能，xt 4p^5 满足线性规划的所有约束； (2) P t txt 4p^5 的期望值接近最优离线值。在开始分析之前，我们在讨论中做出以下简化的技术假设：假设 3. 问题输入处于一般位置——即，对于任何价格向量 p——最多可以有 m 列使得 p T at = 吨。
假设 3 不一定适用于所有输入。然而，正如 Devanur 和 Hayes (2009) 所指出的，人们总是可以通过添加一个随机变量 Žt 在区间 601 ‡7 上均匀分布来随机扰动 t 任意少量‡。这样，在概率为 1 的情况下，在 p T at = t 中，没有 p 可以同时满足 m + 1 个方程，并且可以使这种扰动对目标的影响任意小。在这个假设下，我们可以利用线性规划（1）的互补条件来获得以下引理。
引理 1. xt 4p * 5 ¶ x * t 对于所有 t，并且在假设 3 下，x * t 和 xt 4p * 5 的差异不超过 m 个 t 值。
证明。考虑离线线性规划 (1) 及其对偶（令 p 表示与第一组约束相关的对偶变量，yt 表示与约束 xt ¶ 1 相关的对偶变量）：
(10)
根据互补松弛条件，对于原始问题 (1) 的任何最优解 x ∗ 和对偶的最优解 4p ∗ 1 y ∗ 5，我们必须有：
()
如果 xt 4p * 5 = 1，通过 (9)，t > 4p * 5 T at 。因此，通过 (10) 中的约束，y * t > 0，最后，通过最后的互补性条件，x * t = 1。因此，对于所有 t，我们有 xt 4p * 5 ¶ x * t。
但是，如果 t < 4p ∗ 5 T at ，那么我们必须同时具有 xt 4p ∗ 5 和 x ∗ t = 0。因此，如果 4p ∗ 5 T at 6= t ，则 xt 4p ∗ 5 = x ∗ t 。在假设 3 下，最多有 m 个 t 值，使得 4p ∗ 5 T at = t 。因此，x * t 和 xt 4p * 5 的差异不超过 m 个 t 值。 ƒ 引理 1 表明，如果已知最优对偶解 p * 到 (1)，则通过我们的决策策略获得的 xt 4p * 5 接近最优离线解。然而，在我们的在线算法中，我们使用从前几个输入中学习到的样本对偶价格 p^，这可能与最优对偶价格 p∗ 不同。
剩下的讨论试图表明样本对偶价格 p 对我们的目的来说是足够准确的。
在下文中，我们经常使用这样一个事实，即随机顺序假设可以解释为前 s 个输入是均匀随机样本，而无需从 n 个输入中替换大小 s。我们用 S 表示大小为 s 的样本集，用 N 表示大小为 n 的完整输入集。我们从引理 2 开始，这表明使用样本对偶价格构造的原解 xt 4p^5 很有可能是可行的：引理 2. 使用样本对偶价格构造的原解是线性规划 (1) 的可行解概率很高。更准确地说，概率为 1 - …，
()
给定 B ¾ 6mlog4n/…5/…3。
证明。考虑任何固定价格 p 和 i。当且仅当 p 是样本集 S 的 (8) 的最优对偶价格，但 Pn t=1 aitxt 4p5 > bi 时，我们说样本 S 对 p 和 i 是“坏的”。
首先，我们表明对于每个固定的 p 和 i，坏样本的概率很小。然后我们对所有不同的价格进行联合约束，以证明学习到的价格 p^ 很有可能使得 Pn t=1 aitxt 4p^5 ¶ bi 对于所有 i。
首先，我们固定 p 和 i。定义 Yt = aitxt 4p5。如果 p 是 S 上样本线性程序的最优对偶解，将引理 1 应用于样本问题，我们有
()
其中 x 是 S 上的样本线性程序的原始最优解。现在我们考虑这个 p 和 i 的坏样本的概率：
()
此外，我们有
()
其中 „ = …/4m · n m5。倒数第二步遵循 Hoeffding-Bernstein 的无放回抽样不等式（附录 A 中的引理 10），将 Zt , t ∈ S 视为来自 Zt , t ∈ N 的无放回样本。
我们还使用了 0 ¶ Zt ¶ 1 对于所有 t 的事实；因此，P t∈N 4Zt − Z¯5 2 ¶ P t∈N Z 2 t ¶ bi （因此引理 10 中的‘ 2 R 可以由 bi 界定）。最后，最后一个不等式是由于对 B 所做的假设。
接下来，我们对所有不同的 p 进行联合约束。我们称两个价格向量 p 和 q 不同当且仅当它们产生不同的解；即，8xt 4p59 6= 8xt 4q59。请注意，我们只需要考虑不同的价格，否则所有 Yt 都是完全相同的。请注意，每个不同的 p 的特征在于通过超平面在 m+1 维空间中将 n 个点（在 9 n t=1 处为 8 t 1 ）唯一分离。根据计算几何的结果，此类不同价格的总数最多为 n m（Orlik 和 Terao 1992）。对 n m 个不同的价格进行联合约束，并且 i = 110 0 01 m，我们得到了想要的结果。 ƒ 我们表明，xt 4p^5 很有可能是一个可行的解决方案。在下文中，我们将证明它也是一个近乎最优的解决方案。
引理 3. 使用样本对偶价格构造的原始解是线性规划 (1) 的高概率近似最优解。更准确地说，概率为 1 - …，
()
给定 B ¾ 6mlog4n/…5/…3。
证明。证明基于两个观察。首先，8xt 4p^59n t=1 和 p^ 满足所有互补条件，因此是以下线性规划的最优原始和对偶解：
(11)
其中 b^ i = P t∈N aitxt 4p^5 在 p^i > 0 的情况下，b^ i = max8 P t∈N aitxt 4p^51 bi 9，如果 p^i = 0。
其次，我们证明如果 p^i > 0，则概率为 1−…, b^ i ¾ 41−3…5bi 。为了证明这一点，设 p^ 是集合 S 上的样本线性程序的最优对偶解，x^ 是最优原始解。由线性规划的互补条件，如果 p^i > 0，则第 i 个约束必须满足相等。也就是说，P t∈S aitx^t = 41−…5…bi 。然后，通过引理 1 和 B = mini bi ¾ m/… 2 的条件，我们有
()
然后，使用 Hoeffding-Bernstein 不等式进行无放回抽样，以类似于引理 2 的证明的方式，我们可以证明（详细证明在附录 A.2 中给出），给定 B 的下界，有概率至少 1 - …，对于所有 i 使得 p^i > 0：
(12)
结合 p^i = 0 的情况，我们知道所有 i 的概率为 1−…, b^ i ¾ 41−3…5bi。最后，观察到只要 (12) 成立，给定 (1) 的最优解 x ∗，41 - 3…5x ∗ 将是 (11) 的可行解。因此，(11) 的最优值至少为 41 − 3…5OPT，相当于说
()
因此，在整个周期内采用的在线解决方案的目标值接近最优。然而，在 OLA 中，在学习周期 S 期间没有做出任何决策，只有来自周期 8s + 110 0 01 n9 的决策对目标值有贡献。以下引理将样本线性程序 (7) 的最优值与离线线性程序 (1) 的最优值联系起来，将限制学习期的贡献：引理 4. 令 OPT4S5 表示样本 S 上的线性程序 (7) 和 OPT4N 5 表示 N 上的离线线性程序 (1) 的最优值。
然后，
()
证明。令 4x ∗ 1p ∗ 1 y ∗ 5 和 4x^1p1 y^5 分别表示 N 上的线性程序 (1) 和 S 上的样本线性程序 (7) 的最优原始解和对偶解。
()
注意 S ⊆ N，因此 4p ∗ 1 y ∗ 5 是 S 上线性规划的对偶的可行解。因此，由弱对偶定理：
()
现在，我们准备证明命题 1：命题 1 的证明。使用引理 2 和 3，概率至少为 1 − 2…，以下事件发生：
()
也就是说，决策 xt 4p^5 是可行的，并且在整个周期 8110 0 01 n9 上采用的目标值接近最优。
用 E 表示这个事件，其中 P 4E5 ¾ 1 − 2…。我们有引理 2-4： ()
其中 I4·5 是指示函数，第一个不等式是因为在 E 下，xt = xt 4p^5，倒数第二个不等式使用 xt 4p^5 ¶ x^t 的事实，这是引理 1 的结果

3 动态学习算法

§2 中讨论的算法使用前…n 个输入来学习阈值价格，然后将其应用于剩余时间范围。尽管该算法有其自身的优点——特别是，它只需要求解一个定义在…n 个变量上的小型线性程序——B 所需的下限比定理 1 中声明的下限强…因子。
在本节中，我们提出了一种改进的动态学习算法（DLA），它将实现定理 1 中的结果。
DLA 不会只计算一次价格，而是在每次历史翻倍时更新价格，也就是说，它会在时间 t = …n1 2…n1 4…n10 0 0 学习一个新价格。准确地说，让 p^表示在输入上定义的以下部分线性程序的最优对偶解，直到时间
()
其中数字集 h定义如下：
()
此外，对于任何给定的对偶价格向量 p，我们定义与 (9) 中相同的分配规则 xt 4p5。我们的动态学习算法如下：
算法 DLA（动态学习算法）
1 初始化 t0 = …n。为所有 t ¶ t0 设置 xt = 0。
2 重复 t = t0 + 11 t0 + 21 0 0 0 (a) 设置 x^t = xt 4p^ 5. 这里 = 2 r …n 其中 r 是最大整数使得 < t
3 (b) 如果 aitx^t ¶ bi − Pt−1 j=1 aijxj 对于所有 i，则设 xt = x^t ；否则，设置 xt = 0。输出 xt 。
请注意，我们在整个时间范围内更新了双重价格向量“log2 41/…5”次。因此，DLA 需要更多的计算。然而，正如我们接下来展示的那样，它需要 B 的较弱下限来证明相同的竞争比率。这种改进背后的直觉如下。
最初，在 = …n，h = √ … > …。因此，我们在开始时有较大的松弛，并且约束满足的大偏差参数（如引理 2）需要 B 上的较弱条件。随着 t 增加，增加并且 h减少。
但是，对于较大的值，样本量较大，使得 B 上的较弱条件足以证明相同的误差界限。此外，h下降得足够快，因此目标值的整体损失并不显着。
正如人们将看到的，仔细选择数字 h在证明我们的结果中起着重要作用。
3.1 竞争比率分析
DLA 的分析以与 OLA 类似的方式进行。然而，这里需要证明每个时期所学价格的更强结果。在下文中，我们假设 … = 2 -E 并让 L = 8…n1 2…n1 0 0 0 1 2 E-1 …n9。
引理 5 和 6 与 §2 中的引理 2 和 3 平行，但需要 B 上的较弱条件：引理 5。对于任何 … > 0，概率为 1 - …：
()
给定 B = mini bi ¾ 410mlog 4n/…55/…2。
证明。证明类似于引理 2 的证明，但需要更仔细的分析。我们在此提供一个简短的大纲，并在附录 B.1 中提供详细的证明。首先，我们固定 p、i 和。这一次，当且仅当 p = p^ （即 p 是当前到达订单下的学习价格）但 P2 t=+1 aitxt 4p^ 5 > 4/n5bi . 通过使用 Hoeffding-Bernstein 不等式进行无放回抽样，我们证明在 B 上的条件下，对于任何固定的 p、i 和，“坏”排列的概率小于 „ = …/4m·n·m·E5。然后通过取工会约束所有不同的价格，所有项目 i 和时期，引理被证明。 ƒ 在下文中，我们使用 LPs 4d5 表示在不等式约束中设置为 d 的直到时间 s 的变量上定义的偏线性规划。那是，
()
并让 OPTs 4d5 表示 LPs 4d5 的最佳目标值。
引理 6. 对于所有 ∈ L，概率至少为 1 - …：
()
给定 B = mini bi ¾ 410mlog 4n/…55/…2。
证明。令 b^ i = P2j=1 aijxj 4p^ 5 对于 i 使得 p^ i > 0，并且 b^ i = max8 P2 j=1 aijxj 4p^ 51 4425/n5bi 9，否则。那么解对 48xt 4p^ 592 t=1 1 p^ 5 满足所有互补条件；因此，它们是线性规划 LP2 4b^5 的最优解（分别是原始解和对偶解）：
()
这表示
()
现在我们分析比值b^i/42bi/n5。根据 b^ i 的定义，对于 i 使得 p^ i = 0，b^ i ¾ 2bi/n。否则，使用类似于引理 5 证明的技术，我们可以以概率 1 - … 证明，对于所有 i，
(14)
(14) 的详细证明见附录 B.2。引理来自 (14)。 ƒ 接下来，与引理 4 类似，我们证明以下引理将样本线性程序的最优值与离线线性程序的最优值联系起来：引理 7. 对于任何
()
引理 7 的证明与引理 4 的证明完全相同；因此，我们省略了它的证明。
现在我们准备证明定理 1。
定理证明 1. 观察在线解在时间 t ∈ 8 + 110 0 01 29 的输出是 xt 4p^ ` 5，只要不违反约束条件。根据引理 5 和 6，概率至少为 1 − 2…：
()
用 E 表示这个事件，其中 P 4E5 ¾ 1 − 2…。在线算法实现的预期目标值可以如下限定：
()
第三个不等式来自引理 6；倒数第二个不等式来自引理 7；最后一个不等式源于以下事实：
()

4 所有算法的最坏情况限制

在本节中，我们证明定理 2；即，条件 B ¾ ì4logm/…2 5 是任何在线算法实现 1 − O4…5 的竞争比率所必需的。我们通过构造 (1) 的实例来证明这一点，其中包含 m 个项目和每个项目的 B 个单元，使得没有在线算法可以实现 1 − O4…5 的竞争比，除非 B ¾ ì4logm/…2 5。
在此构造中，我们将 0-1 向量 at 称为需求向量，将 t 称为利润系数。假设某个整数 z 的 m = 2 z。我们将构造 z 对需求向量，使得每对中的需求向量相互补充并且不共享任何项目。
然而，每组由每对中的一个向量组成的 z 向量将共享至少一个公共项。
为此，请考虑 2z 个可能的长度为 z 的布尔字符串。第 j 个布尔字符串表示 j = 110 0 01 m = 2 z 的第 j 个项目（为了说明目的，我们在后面的讨论中从 0 开始索引项目）。让 sij 表示第 j 个字符串的第 i 位的值。然后我们构造一对需求向量 vi 1wi ∈ 801 19 m，通过设置 vij = sij, wij = 1 - sij。
表 2 说明了 m = 8 (z = 3) 的这种结构：注意向量 vi 1wi 1 i = 110 0 01 z 是相互补充的。考虑通过为每个 i = 110 0 01 z 选择两个向量 vi 和 wi 中的一个而形成的任何 z 需求向量集合。然后通过设置 sij = 1 如果这个集合有向量 vi 和 0 如果它有向量 wi 来形成一个位串。然后这个集合中的所有向量共享对应于布尔字符串的项。例如，在表2中，需求向量v3、w2和w1共享项目44＝“100”5，需求向量w3、v2和v1共享项目34＝“011”5，以此类推。
现在，我们构建了一个实例，该实例由利润系数为 4 的 B/z 输入和需求向量 vi 组成，每个 i = 11 0 0 0 1 z。
• qi 输入，利润为 3 和需求向量 wi ，对于每个 i，其中 qi 是二项式 (2B/z1 1/2) 之后的随机变量。
• √ B/4z 输入，利润为 2，需求向量为 wi，对于每个 i。
• 2B/z - qi 输入，利润为 1，需求向量为 wi，对于每个 i。
使用构造中确保的需求向量的属性，我们证明了以下主张：
table 2
权利要求 1. 令 ri 表示构造示例的任何 1-… 竞争解决方案接受的类型为 wi 的向量的数量。那么，它必须持有
()
证明。令 OPT 表示离线问题的最优值。并让 OPTi 表示从第 i 类接受的需求中获得的利润。令 topwi 4k5 表示前 k 个输入与需求向量 wi 的利润之和。然后
()
令 OPT d 为接受类型为 wi 的 ri 向量的解决方案的目标值。首先，请注意 P i ri ¶ B。这是因为所有 wi 共享一个公共项目，并且该项目最多有 B 个单元可用。令 Y 为 8i2 ri > B/z9 的集合， X 为剩余的 i；即，X = 8i 2 ri ¶ B/z9。然后，我们证明接受的 vi s 总数不能超过 B - P i∈Y ri + Y B/z。显然，集合 Y 的贡献不能超过 Y B/z vi s。让 S ⊆ X 贡献剩余的 vi。现在考虑集合 Y 中的所有 wi 和集合 S 中的所有 wi 共有的项目（通过构造至少存在一个这样的项目）。由于该项目只有 B 个单位可用，因此 S 贡献的 vi 总数不能超过 B − P i∈Y ri 。因此，接受的 vi s 的数量小于或等于 B - P i∈Y ri + Y B/z。
表示 P = P i∈Y ri -Y B/z，M = XB/z− P i∈X ri 。然后 P 1M ¾ 0 和目标值
()
由于 OPT ¶ 7B，这意味着 P +M 必须小于 7…B 才能获得 1 - … 或更好的近似比。 ƒ 这里是剩余证明的简要描述。通过构造，对于每个 i，恰好有 2B/z 个需求向量 wi，其利润系数为 1 和 3；其中，每个取值 1 或 3 的概率相等。从前面的主张来看，要获得接近最优的解决方案，必须选择 wi 类型的接近 B/z 需求向量。因此，如果 431wi 5 输入的总数大于 B/z，那么选择任何 421wi 5 将导致与最优利润相比利润损失 1；如果 431wi 5 输入的总数小于 B/z - √ B/4z，则拒绝任何 421wi 5 将导致利润损失 1。使用中心极限定理，在任何一步，这两个事件都可能发生以恒定的概率。因此，对于 421wi 5 的每个决定都可能导致具有恒定概率的损失，这导致每个 i 的总预期损失为ì4√ B/z5，即总损失为ì4√ zB5。
如果要接受的 wi 的数量不完全是 B/z，则这些 √ B/z 决策中的一些可能不是错误的，但如上面的主张，这种情况不能超过 7…B。
因此，在线解决方案的期望值为 ONLINE ¶ OPT - ì4√ zB - 7…B50 由于 OPT ¶ 7B，要获得 41 - …5 近似因子，我们需要 ì4p z/B - 7…5 ¶ 7… ⇒ B ¾ ì4z/…2 5 = ì4log4m5/…2 50 这样就完成了定理 2 的证明。本证明中使用的步骤的详细说明见附录 C。

5 扩展

5.1 在线多维线性规划
我们考虑以下更一般的在线线性程序，在每个步骤中具有多维决策 xt ∈ k，如 §1 中的 (3) 中所定义：
(15)
我们的在线算法基本保持不变（如 §3 中所述），现在定义如下 xt 4p5：
()
这里 er 是单位向量，在第 r 个条目处为 1，否则为 0。我们在算法中任意打破关系。使用 (15) 的互补性条件和定理 3 中假设的 B 的下界条件，我们可以证明以下引理。 4 证明与一维情况的证明非常相似，并在附录 D 中提供。
引理 8. 令 x ∗ 和 p ∗ 分别是 (15) 的最优原始解和对偶解。那么 x ∗ t 和 xt 4p ∗ 5 最多有 m 个 t 值不同。
引理 9. 当且仅当 xt 4p5 6= xt 4q5 对于某个 t 时，定义 p 和 q 是不同的。那么最多有 n mk 2m 个不同的价格向量。
有了上述引理，定理 3 的证明将与定理 1 的证明完全相同。
5.2 在线整数规划
根据 (9) 中 xt 4p5 的定义，我们的算法总是输出整数解。由于竞争比分析将在线解与相应 LP 松弛的最优解进行比较，因此定理 1 中的竞争比也适用于在线整数规划。 §5.1 中介绍的一般在线线性程序也有同样的观察结果，因为它也输出整数解
5.3 通过列采样快速求解大型线性程序
除了在线问题外，我们的算法还可以应用于解决（离线）线性程序太大而无法明确考虑所有变量的问题。与一次性在线学习解决方案类似，可以随机抽取…n 个变量，并使用这个较小程序的对偶解决方案 p^ 将变量 xj 的值设置为 xj 4p^5。这种方法与用于求解大型线性程序的列生成方法非常相似（Dantzig 1963）。我们的结果首次对通过随机选择列子集来减小线性程序大小的方法所实现的近似进行严格分析。

6 结论

在本文中，我们在假设随机到达顺序和右侧输入的一些温和条件下，为一般类别的在线 LP 问题提供了一种 1−O4…5 竞争算法。我们使用的条件与最优目标值、目标系数和输入数据的分布无关。
我们的 DLA 通过以几何时间间隔动态更新阈值价格向量来工作，其中从前一时期显示的列中学习到的双重价格用于确定当前时期的顺序决策。我们的动态学习方法可能有助于为其他问题设计在线算法。
未来的研究还有很多问题。一个重要的问题是当前对右手输入 B 大小的限制是否严格。正如我们所展示的，我们的算法和下限之间存在差距。通过一些数值实验，我们发现我们算法的实际性能接近下限（见 Wang 2012）。但是，我们无法证明这一点。填补这一空白将是未来研究的一个非常有趣的方向。