Scheduling with Testing

最新推荐文章于 2024-08-15 01:55:01 发布

zzzzz忠杰

最新推荐文章于 2024-08-15 01:55:01 发布

阅读量504

点赞数 1

分类专栏： RL&OR 文章标签： python

本文链接：https://blog.csdn.net/weixin_43889128/article/details/125352606

版权

RL&OR 专栏收录该内容

56 篇文章 14 订阅

订阅专栏

.摘要

我们研究了一类新的调度问题，它捕获服务环境中的常见设置，其中一个必须服务于具有先验不确定属性（例如，处理时间和优先级）的作业集合，并且服务提供者必须决定如何动态地在测试（诊断）工作之间分配资源（例如，人员、设备和时间），以更多地了解它们各自的不确定属性和处理工作。前者可以为未来的决策提供信息，但可能会延迟其他工作的服务时间，而后者直接推进工作的处理，但需要在不确定的情况下做出决策。通过新颖的分析，我们获得了令人惊讶的最优策略结构结果，这些结果提供了运营管理洞察力、有效的最优和接近最优的算法，以及测试价值的量化。我们相信，我们的方法将导致进一步的研究，以探索这一重要的实际权衡。

1 引言

许多服务系统的有效管理通常依赖于对客户、任务或工作进行适当分类和优先排序的能力。然而，在许多情况下，各种工作的确切性质是不确定的。例如，处理给定作业所需的时间和资源数量及其相对优先级可能无法准确知道。虽然最近信息技术的进步能够获得关于每项工作的更准确的预测，但仍然有许多情况下，收集更多关于工作的信息需要分配用于处理工作的相同资源。这导致了探索与利用之间的操作权衡，特别是如何在称为测试的诊断工作（旨在收集有关到达的工作的更多信息）与称为工作的处理工作（仅服务于系统中的工作（客户） .
在本文中，我们介绍了捕捉这些权衡的新调度模型，并提供了一些关于最优策略的结构结果和见解，以及关于如何获得最优和可证明接近最优策略的算法结果。令人惊讶的是，在许多有趣的情况下，最优策略可以通过短视（本地）规则来描述。
本文研究的权衡类型的一个相关示例出现在飞机维修中。发动机维修需要拆卸和重新组装发动机，这在时间上是昂贵的。或者，可以使用特殊测试来诊断发动机设备，它可以揭示故障的性质，以及所需的纠正措施和处理时间。在这种情况下，工作和测试之间的共享资源是维护人员。
另一个例子出现在急诊科。在这种情况下，患者接受分诊过程，旨在收集有关其紧迫性（对等待的敏感性）以及所需活动和处理时间的信息。该信息允许对患者进行优先排序，以确保有效分配有限的医疗资源。虽然这些示例源于截然不同的实践，但它们都产生了类似的权衡，特别是在诊断和实际工作处理之间应如何分配资源。
本文重点关注调度理论中的核心问题之一，即单个服务器以及最小化给定作业集完成时间的加权和的目标。该目标反映了最小化加权总（或平均）等待时间的目标，这在上述实际设置和许多其他实际设置中是现实的，其中存在测试与工作的权衡。作业的处理时间和权重是未知的，但如果作业被测试，则可以揭示，这是一项需要指定服务器时间的活动。因此，在任何阶段都必须决定是测试另一项工作还是处理一项工作（要么已经测试过，要么仍然具有不确定的处理时间和重量）。一旦作业被处理，它就必须完成（即，抢占不是允许）。我们注意到，如果没有测试选项，已知问题可以通过按预期加权处理时间的递增顺序处理作业来最佳解决；这被称为加权最短处理时间规则 (WSPT)
1.1 贡献
本文做出了几个重要贡献。
首先，它引入了一类新的调度模型，可以捕捉服务环境中探索与利用之间的权衡。虽然人们普遍认为，了解和控制可变性对于维持不间断运营至关重要，但据我们所知，这是第一项研究应在多大程度上利用资源来收集信息和减少不确定性的工作。其次，虽然问题的自然表述导致了高维动态程序（DP），但本文提供了结构分析，获得了最优政策的特征，这在管理上是直观的。具体来说，我们明确识别（并计算）两个阈值，将测试作业分为三组。第一组应立即处理，不得拖延。第二组应在处理完所有其他作业后最后处理。
最后，未知作业只能在处理第三组已知作业之前进行潜在测试。
我们还表明，最优策略具有最优停止时间问题的结构；它测试作业并立即处理第一组中的作业，直到某个时候它切换到使用 WPST 规则处理所有剩余的作业，并且不再测试。第三，基于最优策略的结构特征以及创新的边际成本核算方案，我们提出了一个具有五个维度的低维 DP 公式来描述每个系统状态（与可以使用标准方法）。与传统的成本会计方案不同，其中一项工作对整体目标函数的贡献是在该工作的处理完成时考虑的，在边际成本会计中，它对其他工作的完成时间的贡献是在完成后计算的。确定作业之间的相对调度顺序。此外，最优策略的结构特性导致低维 DP 公式可以使用完全多项式逼近方案 (FPTAS) 以几乎最优的方式求解任何指定的准确度。第四，在特定条件下（包括同等权重工作的特殊情况），最优策略被证明是一个短视规则，只能基于当前状态。
第五，分析提供了对作为问题各种参数函数的测试价值的见解，并分析评估了更简单策略的性能。这种分析可以更好地用于了解并评估测试功能何时确实值得。最后，分析扩展到更广泛的设置，其中测试可能仅揭示有关潜在属性的部分信息。
1.2 文献综述
半个多世纪以来，研究界在调度领域开发了丰富而广泛的文献。尽管如此，尽管已经探索了广泛的问题，但测试本身的主题似乎没有受到关注。调度问题的典型特征涉及诸如单个作业属性（例如，处理时间、到期日期、发布日期和抢占）、作业之间的依赖关系（例如，优先约束、作业系列、设置时间）、服务器属性（例如，多个服务器、速度控制、批处理和故障）、服务器作业设置（例如，流水车间、作业车间和开放车间问题），在各种目标下（例如，制造时间、流水时间、延迟和迟到）。本文的文献综述并不试图对这一庞大的知识体系进行全面调查，而是介绍调度文献中的主要研究领域，以及它们与我们工作的关系。对于该主题的全面处理，读者可参考 Pinedo (2012) 和 Leung (2004)。
对调度工作进行分类的主要方法是根据调度程序已知的信息量。主要类别是确定性的、随机的和在线的。三是信息可得性下降。在确定性问题中，所有信息都是预先知道的，这意味着可以提前做出决策，并且可以预测整体性能。随机调度假设不确定数据的概率特征。最极端的是在线调度，其中不假设有关处理或系统到达时间的知识，并且信息逐渐显示。论文中研究的模型共享随机和在线调度问题的属性。一方面，概率分布用于对不确定性进行建模，但另一方面，允许测试作为以在线方式了解这些不确定性的一种手段。
与我们的模型密切相关的两个领域是医疗分类和维护。在医学分诊方面，过去十年出现的一系列论文对当前的分诊实践提出了挑战（例如，Sacco 等人 2005、Lerner 等人 2008 和 Jenkins 等人 2008）。
主要批评之一是在决定患者的优先事项时没有考虑资源可用性。同时，关于模型和启发式的新工作为创建更好的分类流程提供了见解和替代方案（例如，Sacco 等人。
2005 年，李和 Glazebrook 2010 年，雅各布森等人。 2012 年，以及米尔斯等人。 2013）。然而，通常这类工作的基本前提是可以获得有关患者的信息（无论是部分的还是完整的），并且目标是在给定信息的情况下优化资源分配。在我们的工作中，除了决定为患者服务的资源分配外，我们还考虑确定每个患者状况的过程，这也消耗资源（但在相当不同的环境中）。在 Alizamir 等人。 (2013)，研究了一个模型，其中可以控制诊断准确性（例如，通过在诊断上投入更多时间），并且在诊断准确性和患者延误之间进行权衡。后一项工作与诊断准确性有关，而我们的重点是确定应为患者服务的顺序，这是改善许多服务系统中各种绩效指标的重要杠杆
在有关维护的文献中，在被称为准备模型的一类模型（McCall 1965）中，一项显着的努力致力于通过检查研究维护问题。在这些模型中，机器会在一个隐藏的过程中随着时间的推移而退化，除非进行检查，从而揭示机器的真实状态。大多数关于检查模型的相关文献都集中在无限视野设置中的单组件系统上，如果没有检查，故障是不可见的。此外，假设检查成本高昂，其持续时间可以忽略不计，目标是最小化成本。也就是说，重点是成本而不是有限容量的分配。在多组件系统中，工作主要是利用规模经济通过同时修复多个组件来降低维护成本。此外，还为系统创建了模型，在这些系统中，组件的演变之间存在相关性，或者由于结构依赖性而共同维护组件。据我们所知，这些作品都没有研究如何使用检查来动态地通知调度决策。对于维护模型的调查，读者可以参考 McCall (1965)、Pierskalla 和 Voelker (1976)、Sherif 和 Smith (1981)、Sherif (1982)、Yamayee (1982)、Valdez-Flores 和 Feldman (1989)、Cho 和 Parlar (1991), Dekker 等人。（1997），郭等人。
(2000)、王 (2002)、Frangopol 等人。（2004 年）怡和等人。 (2006)、Nicolai 和 Dekker (2008) 以及 van Noortwĳk (2009)。
我们还注意到一些研究单服务器排队和调度设置中信息价值的结果。 Bansal (2005) 研究了一个 M/M/1 队列，其中工作持续时间在到达时是已知的。他量化了一项政策的改进，该政策以剩余处理时间的递增顺序处理作业，而不是标准的先到先得政策Wierman 和 Nuyens (2008) 研究了一类概括最短处理时间规则的策略。
当需要对具有不同处理时间的作业进行分组并分配相同的优先级规则时（这类似于没有关于处理时间的确切信息），这些在实践中使用。他们推导出多个性能度量的界限，并研究界限如何受到信息准确性的影响。
已经在收入管理和供应链管理中的几个运营问题的背景下研究了勘探与开发的权衡（例如，参见 Besbes 和 Zeevi 2009 以及 Besbes 和 Muharremoglu 2013）。然而，这个工作流中的典型假设是底层分布是未知的并且是从数据中学习的。
相反，在我们的设置中，假设分布是已知的，但可以通过测试观察这些分布中的特定实例。
我们工作的新颖之处在于将学习决策纳入工作调度问题。传统上，调度问题侧重于确定确定性环境中作业处理的最佳顺序，或受到由概率分布表示的不确定性的影响。然而，据我们所知，已发表的文献中尚未研究测试问题（Sun et al. 2017 最近的工作研究了该模型的一个非常特殊的案例）。
这项工作的其余部分安排如下。在第 2 节中，我们描述了模型、新的成本核算方案以及由此产生的 DP 公式。第 3 节包含对模型的分析和最优策略的表征，然后我们在第 4 节中使用该表征来开发近似最优地解决问题的算法。在第 5 节中，我们研究了一个短视策略并在某个假设下证明了它的最优性。在第 6 节中，我们讨论了测试的价值，在第 7 节中，我们将模型推广到更广泛的设置，并表明基本模型的结果仍然成立。我们在第 8 节总结并讨论未来的研究方向。请注意，由于篇幅限制，一些证明被省略了，但这些出现在在线附录中。

2 数学公式

考虑需要由单个非抢占式服务器处理的 N0 个作业。每个作业 i 与给定的处理时间 ti 以及表示作业相对重要性的权重 wi 相关联。作业 i 的持续时间 ti 和权重 wi 是根据已知联合分布 D 分布的先验随机变量 (T, W)，支持度为 [1, D] × [1, V]，并且在作业之间独立同分布。
当服务器空闲时，调度程序可以执行以下操作之一。它可以处理一个作业，在这种情况下，实现了作业的处理时间T和权重W。但是，必须处理作业没有抢占。或者，服务器可用于测试需要指定处理时间ta的作业，并揭示特定作业所需的处理时间和权重。测试后，该作业可以暂停并稍后处理。因此，只要服务器空闲，就可以做出三个决定：处理“已知”作业之一（即处理已测试的作业），处理“未知”作业（即处理未测试的作业），或测试一个“未知”的工作。
请注意，已知和未知都与尚未处理的作业有关。
系统的状态可以表示为一个向量 (N,[t1 , w1 , . . . , tn , wn ])，其中 N 和 n 分别表示未知和已知工作的数量，而 t1 , w1 , . . . , tn , wn 表示 n 个已知作业中每个作业的处理时间和权重的实现。
当没有已知作业时，系统状态就是 (N,[ ])。不失一般性，我们总是假设比率 ti/wi 在 i 中不减。我们分别用 ρƐ[T]/Ɛ[W] 和 ρi ti/wi 表示未知作业和给定测试作业 i 的处理时间与权重（重要性）比。动作空间可以用集合 {test, processu, processi} 来描述。
控制是指测试未知作业、处理未知作业和处理已知作业 i。
目标是找到一种自适应调度策略，以最小化完成时间的预期加权总和。这将被称为 S&T 模型（带测试的调度）。
在提出问题的 DP 公式之前，我们在第 2.1 节中展示了 WSPT 规则的一个变体扩展到我们的问题。这允许在第 2.2 节中引入边际成本会计方案，然后用于获得问题的 DP 公式（第 2.3 节）。
2.1 WSPT 规则
众所周知，本文研究的问题的确定性变体可以通过按比例非递减顺序处理作业的策略（也称为 WSPT 规则或 Smith 规则；参见 Smith 1956）得到最佳解决。此规则的不同（动态）视图是最优策略始终选择以最低比率处理作业。
在本节中，表明该属性的较弱版本适用于 S&T 模型（稍后将在第 3 节中扩展）。具体来说，我们表明，在处理时，当已知作业的比率小于未知作业的比率时，处理它是最佳的。
请注意，虽然通常使用简单的交换参数来证明此属性，但在 S&T 模型中，测试操作可以在任何两个作业的处理之间发生。在这种情况下，交换两个作业以形成递减的比率顺序可能不再保证改进的调度策略。此外，通过测试，我们观察到作业的真实比例，这也可能影响最佳调度顺序。
在引理 1 中，我们表明给定两个连续处理的作业，它们的比率必须是非递减的。然后，我们在引理 2 中证明了一个更强的属性，即给定两个作业没有经过测试，在处理具有较低比率的作业之前处理具有较高比率的作业是次优的（即使这些作业没有连续处理）。
引理 1. 以递减比率连续处理作业是次优的。
证明。请参阅在线附录中的第 A.1 节。
引理 2. 处理比率高于已知工作比率的工作（已知或未知）是次优的。
证明。请参阅在线附录中的第 A.2 节。
请注意，引理 2 显着减少了动作空间。在任何状态下，我们只需要在测试或处理未知作业和以最小比率处理已知作业之间进行选择。
2.2 边际成本会计
边际成本会计与线性排序的概念有关（参见 Queyranne 和 Schulz 1994 以及其中的参考资料）。对于未经测试的问题，使用任何一对作业的处理顺序通过线性排序来描述策略。然后，目标值可以写为 Pn i1 tiwi + P i,j 1i<j tiwj ，其中 1i<j 是在作业 j 之前处理作业 i 的事件的指示函数。我们看到每个作业 i 将其处理时间贡献给它自己 (wi ti )，以及之后处理的每个作业 j (tiwj )。
当可以测试作业时，还必须考虑测试引起的进一步延迟。对于作业 i，由于测试导致的延迟是作业 i 之前测试作业数量的 ta 倍。事后看来，我们可以将目标值写为：
(1)
引理 2 意味着当作业被测试并且它们各自的值 ti 、 wi 变得已知时，最佳的处理顺序是部分确定的。因此，可以在测试时计算一些未来成本。更一般地说，在边际成本会计中，我们收取由于当前行动而已知的所有未来成本。
具体来说，当在状态 (N,[t1 ,w1 ,…,tn ,wn ]) 测试未知作业 l<{1…n} 并实现值 (tl ,wl ) 时，会导致延迟通过测试，ta (Σ n i1wi+ (N −1)Ɛ[W]+wl )，以及相对于其他已知工作的订购成本，tlwl +Σ n i1 (1ρl<ρi tlwi +1ρl>ρi tiwl ) 可以是带电。此外，如果一个未知的工作是加工后，可以收取所有其他作业的订购成本Ɛ[TW +Σ n i1 Twi +(N -1)TƐ[W]]。
这包括“自我施加成本”TW、与已知工作相关的成本Σ n i1 Twi 以及与其他 N -1 个未知工作相关的成本，预期为 (N−1)TƐ[W]（我们使用工作之间的独立性）。
最后，在处理已知作业 1 时，附加成本是作业 1 相对于未知作业的订购成本：N t1Ɛ[W]。请注意，前面的操作已经考虑了其他订购成本。
2.3 DP公式
在本节中，我们描述了该问题的 DP 公式。 DP 的状态由之前定义的向量 (N,[t1 , w1 , . . . ,tn , wn ]) 表示。根据引理 2，我们可以将控制空间限制为 {test, processu, process1}。转换很简单，而处理未知作业会使 N 减 1；处理作业 1 将作业 1 从状态中移除；测试一个未知作业，将 N 减 1，并通过处理时间和权重 (T,W) 的实现将已知作业添加到状态。这发生在由分布 D 定义的概率。使用边际成本帐户方案（第 2.2 节），我们将贝尔曼方程定义如下：
(2)
由于 T 和 W 是随机的，因此到下一个系统状态的转换是随机的，因此，通过对所有可能状态的期望来捕获成本。
观察到状态总数为 O( N0+DV+1 N0 )，因此运行时间为 O(DV N0+DV+1 N0 )，因此在计算上难以求解。
虽然边际成本会计方法似乎不如在处理工作后添加完成时间的传统方法那么简单，但边际成本会计方法具有尽早核算成本的优势。直观地说，这意味着我们需要在 DP 状态中编码更少的信息，这将使我们能够制定更紧凑的 DP。更具体地说，使用边际成本会计方法和最优策略的几个结构属性（第 3 节），我们将问题表述为低维 DP（第 4 节），并表明未知和已知工作的五个统计量就足够了考虑所有未来成本（与上述 N 维 DP 公式相反

3 3. 最优策略的性质

cy 在本节中，利用第 2.3 节中描述的 DP 公式来表征最优策略的结构特性。然后将这些用于设计低维 DP 公式。
我们首先引入一个新的量 ρa ，它与 ρ Ɛ[T]/Ɛ[W] 一起，将是表征最优策略的关键。
定义 1. 测试比 ρa 定义为方程的唯一解
(3)
3) 引理 3 表明 ρa 是明确定义的。
引理 3. (1) 函数 f (x) ta − Ɛ[(xW − T) + ] 在 x 中是非增的。此外，f (x) 在 x ≥ inf{d/v: Prob(T d, W v) > 0} 时严格递减，其值为 ta > 0。
(2) ta −Ɛ[(xW −T) + ] 0 的解是唯一的。
(3) 如果 x < ρa 则 ta − Ɛ[(xW − T) + ] > 0；如果 x > ρa 则 ta −Ɛ[(xW −T) + ] < 0。
(4) ρa < ρ ⇔ ta < Ɛ[(ρW -T) + ]。
证明。 证明是直截了当的，为简洁起见省略。 Q.E.D.
量 ρa 具有最小工作比的直观含义，因此更早测试更晚测试。正如我们将看到的，ρa 是测试未知工作的触发点；具体来说，我们将证明，在已知工作 i （ρa < ρi）或已知工作（ρa > ρi）之前测试未知工作永远不是最优的。
类似地，ρ 将作为处理未知工作的触发点，我们将证明在 ρ < ρi 的已知工作 i 之后或 ρ > ρi 的已知工作 i 之前处理未知工作永远不是最优的。
使用 ρ 和 ρa 我们可以将已知工作分为三组： (i) 低比率工作 (ρi < min(ρ, ρa ))； (ii) 中等比率工作 (min(ρ, ρa ) < ρi < max(ρ, ρa ))； (iii) 高比率工作 (ρi > max(ρ, ρa ))。为了便于说明，我们假设 ρa , ρ （不失一般性），并且对于每个 i，我们有 ρi , ρa 和 ρi , ρ。（这有轻微的一般性损失，可以很容易地解决，但会妨碍可读性。）对于状态（N，[t1，w1，…，tn，wn]），表示低/中/高比例作业的集合分别按 SLow/S Med/S High。观察这些集合是状态相关的
figure 1
图 1 说明了这种工作分类，假设 ρa < ρ。作业根据其比率在显示的轴上排序。未知工作用圆圈表示，已知工作用“x”表示。在此示例中，有四个未知职位、两个低比率职位、三个中比率职位和两个高比率职位。
下一个引理表明，低比率作业具有最高优先级，并且在测试后立即被处理，没有进一步的延迟。
引理 4. 对于任何状态 (N,[t1 , w1 , … , tn , wn ])，其中作业 1 的比率较低，处理作业 1 是唯一的最优控制。
证明。 请参阅在线附录中的第 A.3 节。
引理 4 意味着低比率作业应在测试后立即处理。例如，在图 1 所示的状态下，处理最短的两个作业并转换到图 2 所示的状态是最佳的。不失一般性，我们总是可以假设 ρa < ρ1 或 ρ < ρ1 。也就是说，在最优策略下，永远不会有低比率工作的状态。
我们现在分别考虑两种情况：(1) ρa < ρ 和 (2) ρa > ρ。由于参数 ρa 随测试时间单调增加（定义 1），我们用短测试时间和长测试时间来表示这两种情况。在第一种情况（第 3.1 节）中，我们表明任何测试都必须先于处理中等比率、高比率和未知作业的任何处理。因此，所有测试都应该是图 2。（在线彩色）检测后立即处理低比率作业处理时间与重量比低比率高比率中等比率 a 1 2 3 4 5 已知作业处理后立即完成的未知作业低比率的作业，一旦我们停止测试，所有剩余的作业都按照其比率的非递减顺序进行处理，基本上遵循 WSPT 规则。对于第二种情况（第 3.2 节），我们表明永远不应该测试未知的工作。因此，问题被简化为最小化完成时间的加权和的传统问题（无需测试）。
3.1 短测试时间
使用 ρa < ρ 的假设，我们首先证明与处理后立即进行测试有关的局部最优条件。尽管是局部的，但这个结果与之前的引理和属性一起对最优策略施加了大量的结构。
引理 5. 如果 ρa < ρ，则在处理比率高于 ρa 的作业后立即进行测试是次优的。
证明。 请参阅在线附录中的第 A.4 节。
作为引理 5 的示例，请考虑图 2 中所示的状态。引理 5 指出，在处理剩余已知和未知作业的任何子集之后测试作业不是最优的。我们得出结论，当 ρa < ρ 时，最优策略总是在测试前处理所有低比率作业，并且通常分两个阶段运行。在第一阶段，只有在比率较低的情况下，才会立即测试和处理未知作业。在第二阶段，系统中的所有作业都是以它们的比率的非递减顺序进行处理。这意味着该问题可以被视为停止问题，其中继续的决定对应于测试未知作业（如果相应作业的比率较低则处理），停止对应于处理所有剩余的作业。
figure 2

图 3 通过一系列动作说明了最优策略，这些动作导致了由 A-D 表示的四个状态之间的转换。在图 3(a) 中，我们看到状态 A——系统的当前状态。然后，最优策略需要在两个动作过程中做出决定：要么停止（根据 WSPT 规则处理所有作业），要么测试未知作业。假设测试是最优的。在这种情况下，我们测试一个未知的工作并转换到状态 B（图 3(b)）。请注意，现在我们有一个不太为人所知的工作，并且测试的工作（编号为 1）具有中等比率。再一次，我们需要在停止和测试之间做出决定。假设再次测试是最优的。我们测试未知作业并转换到状态 C（图 3©）。在状态 C 中，只剩下两个未知工作和一个额外的低比率工作（编号为 2）。立即处理低比率作业，这导致我们进入状态 D（图 3(d)）。再一次，我们需要在停止和测试之间做出选择。假设停止是最佳的，我们根据它们的比率处理所有作业，即根据它们在轴上从左到右的位置。
这些结果总结在以下定理中。
定理 1. 对于 ρa < ρ，最优策略的动态如下：
(1) 以比率非递减的顺序处理比率低于 ρa 的所有工作。
(2) 要么按照比率的非递减顺序处理所有剩余的作业，要么测试一个作业并返回 (1)。
（当我们以比率的非递减顺序处理所有作业时（在情况 2 中），我们使用 ρ 作为所有未知作业的比率，因此可以依次处理它们。）证明。证明紧接着引理 4 和 5。Q.E.D.
有趣的是，最佳解决方案的形式与急诊部门当前的做法非常相似。最优先考虑的是紧急患者（高体重）和可以快速解决的病例（处理时间短）。其他案件被分类（测试）并被搁置。这可能表明应在其他行业考虑分类模型（可能针对特定领域进行调整）。
引理 4 和 5 的另一种解释是测试的交换属性。类似于交换参数在没有测试的情况下重新排序问题中的作业的方式，两个引理重新排序测试，以便在处理低比率作业之后和处理任何其他作业之前执行它。
请注意，有些问题尚未得到解答。
主要是我们应该在所有lowratio作业都处理完之后再测试还是处理所有作业（也就是什么时候停止）
3.2 长测试时间
当 ρ < ρa 时，我们表明测试总是次优的，这意味着问题减少到没有测试的传统问题。
定理 2. 如果 ρ < ρa ，那么对于每个状态 (N,[t1 , w1 , . . . , tn , wn ])，最优策略以非递减的顺序处理所有工作（即测试永远不是最优的） .
证明。证明。请参阅在线附录中的第 A.5 节。
虽然该模型的一个基本假设是在系统的初始状态中有 N0 个工作，但即使在初始状态包含已知工作时，定理 2（以及所有其他引理和定理）仍然成立。
请注意，当 ρ < ρa 时，以比率的非递减顺序处理所有作业的最优策略是 ρa < ρ 时最优策略的特例，在这种情况下不应执行测试。

4 求解和算法

在本节中，我们为该问题开发了一种有效的算法解决方案。在第 4.1 节中，我们使用第 3 节中证明的最优策略的属性来获得低维 DP 公式。在 4.2 节中，我们分析了新的公式，在 4.3 节中，我们使用它来开发一个近似方案。
4.1。低维 DP 公式 我们首先为任意状态 (N,[t1 , w1 , . . . , tn , wn ]) 定义几个统计量： • ωM , P i∈S Med w 工作）;
• ωH , P i∈S 高 wi（高比率工作的总权重）； • τM , P i∈S Med ti（中等比率作业的总处理时间）； • ωτ , P i∈S Med∪S High Ɛ[min(Twi , tiW)]（测试作业和已知作业的预期订购成本）。
基于定理 1 和 S&T 问题的停止时间解释，我们制定了改进的 DP。
定义2.低维DP定义如下：
(4)
(5)
(6)
在这些表达式中，d 和 v 是未知作业的处理时间和权重的实现。
LD DP 中只有两个控件：“testone”和“process-all”。测试一是指测试一个未知的工作，如果它的比率低，则处理相应的工作。 Process-all 是指按比例的非递减顺序处理所有作业。观察 process-all 有一个封闭的形式，并且 test-one 是递归定义的。
接下来，我们将证明第 2.3 节的 DP 公式与 LD DP 之间存在等价性。
定理 3. 对于每个状态 (N,[t1 , w1 , … , tn , wn ])，以下成立： Jmrg(N,[t1 , w1 , … , tn , wn ]) JLD(N, ωM , ωH , τM , ωτ)。
证明。我们分三步证明引理。首先，我们将第 3 节的结构结果结合到第 2.3 节的 DP 公式中，以获得具有减少的控制和状态空间的公式。其次，我们表明新公式与目标一致（完成时间的预期加权总和）。最后，我们替换术语以获得等效的 LD DP 公式。
4.1.1 一种改进的 DP 配方。 在第 3 节中，我们证明了最优策略的两个重要属性：（1）立即处理低比率的工作； (2) 该问题可以看作是一个停止时间问题，只有两个控制：test-one 和 process-all。使用这两个属性，我们减少了控制空间（只有两个控件）和状态空间（没有低比率作业）。我们使用边际成本会计方法的原理和最优策略的结构来定义一个成本函数，该函数在确定两个作业之间的任何订单时最早考虑测试延迟和订购成本。
我们从测试一开始分析两种控制下的成本。图 4 说明了控制测试一造成的不同成本的来源。图 4(a) 说明了执行测试一操作之前的初始系统状态。有两个未知的工作，两个中等比率的工作和两个高比率的工作。
成本有六种类型： 1. 测试工作的自我施加成本：Ɛ[TW]（图 4(b)）。现在实现的测试工作的持续时间图 4.（在线颜色） LD DP：控制测试一（a）中等比率未知 ?? ?? ?? ??
0 高比率 (b) 中等比率高比率 © 中等比率高比率 (d) 中等比率高比率 a (e) 中等比率 ?
0 高比率 (f) 中比率 ?
高比率 (g) 中比率 ?
高比率 a ? 未知的工作；比已知工作；比率 i 测试的工作；比率 d/v 是同一工作完成时间的一部分，它为目标贡献了成本 Ɛ[TW]。
2. 测试延迟：( P i∈S Med∪S High wi + NƐ[W])ta（图 4©）。系统中的每个作业都被延迟了 ta 的持续时间。
3. 已知工作和测试工作对引起的成本：P i∈S Med∪S High Ɛ[min(Twi , tiW)]（图 4(d)）。
一旦实现了测试的作业（持续时间 T），它相对于已知作业的相对顺序将被确定，因为这些作业总是根据 WSPT 规则进行处理。因此，我们可以立即计算这些成本。如果已测试作业的比率小于已知作业的比率（T/W < ti/wi ），则首先处理已测试作业，在这种情况下，目标增加 Twi ；否则，首先处理已知作业，这会将 tiW 添加到目标中。这相当于添加这两项中较小的一项：min(Twi , tiW)。
4. 被测工作（实现为（d，v））和其他未知工作在被测工作具有低比率时（d/v < ρa，图 4（e））引起的成本：d（N -1） Ɛ[W]。立即处理低比率作业，并将其持续时间添加到每个未知作业的完成时间中，将 (d(N - 1)Ɛ[W]) 的总和添加到目标中。
观察到，一旦我们进行测试，就会发现一个不太为人所知的工作，这就解释了为什么这个表达式包含 N -1。
5. 测试工作具有低比率的情况下的未来成本：Jmrg(N − 1,[t1 , w1 , . . . , tn , wn ]) （图 4(e)）。
测试的作业已处理，因此不包括在未来状态中。
6. 测试工作具有中等或高比率的未来成本：Jmrg(N − 1,[t1 , w1 , . . . , tn , wn ] ∪ {d, v}) （图 4(e) 和 4 （F））。测试的作业未处理，因此包含在未来状态中。
figure 4
figure 5
选择处理所有工作时，正在根据其比率ρ处理未知的工作。到那时，整个处理顺序就确定了，我们可以考虑未知作业和其余已知作业之间的订购成本（已知作业的相对顺序在决定处理所有作业之前已经知道，因此这些工作对的各自成本已经计算在内）。
图 5 说明了当我们决定处理全部时正在确定的不同类型的相对顺序。关于工作排序的新信息会产生三种类型的成本： 1. 未知工作对之间的排序成本：N 2 Ɛ[T]Ɛ[W] + NƐ[TW]（图 5(a)）。有 N 2 对未知作业，在每一对中，预期持续时间为 Ɛ[T] 的作业延迟了预期权重为 Ɛ[W] 的作业。此外，N 个未知作业中的每一个都会根据其持续时间延迟自身，这导致总额外成本 NƐ[TW]。
2. 中等比率工作和未知工作对之间的订购成本：Ɛ[W]N( P i∈S Med ti )（图 5(b)）。未知作业在中等比率作业之后处理，这意味着 N 个未知作业中的每一个都被中等比率作业的总持续时间延迟。
3. 高比率工作和未知工作对之间的订购成本：NƐ[T](P i∈S High wi )（图 5©）。
高比率作业在未知作业之后处理，因此，每个高比率作业都会延迟未知作业的总持续时间：(NƐ[T])。这些对对目标的总贡献是未知工作的总预期持续时间乘以高比率工作的总权重。
我们现在可以为修改后的 DP 写出完整的贝尔曼方程
()
4.1.2. 与目标值的一致性。 我们现在表明，对于任何策略，修改后的 DP 公式返回完成时间的预期加权总和。
我们认为等式 (1) 的三种类型的成本以类似的方式计算：
1. 自我造成的成本。 在任何政策下，任何工作的持续时间都是其完成时间的一部分。因此，无论政策如何，NƐ[TW] 一词都应成为最终成本的一部分。根据修改后的公式，它在测试时或在我们处理所有作业时考虑了这一成本，在这种情况下，我们为每个未知作业添加术语Ɛ[TW]。 Ɛ[TW] 项恰好添加了 N 次。
2. 测试延迟。 查看测试延迟成本（等式（1））的一种自然方法是，对于任何工作，我们都需要将工作的权重乘以总测试延迟。
另一种观点是，每次一个未知的 j经过测试，我们添加了尚未处理的作业的总重量。后者是修改后的公式所做的准确成本核算。每次我们测试（并且只有那时）我们将测试时间的乘积与系统中作业的总权重相加。
3. 订购成本。 在修改后的 DP 公式中，我们在确定一对作业之间的顺序时尽可能早地考虑了订购成本。这保证了订购成本只计算一次。要看到这一点，请考虑任何未知的工作 i。一开始，所有工作都是未知的，因此没有考虑订购成本。如果我们测试一个作业 j 并且它的比率很低，那么作业 j 会立即被处理，我们会考虑 (i, j) 对。工作 j 不是状态的一部分，我们将不再考虑这对。如果作业 j 的比率不低，那么我们 (1) 测试作业 j 时将考虑 (i, j) 的订购成本，在这种情况下我们立即考虑它，并且我们将来忽略这对（无论我们是测试一个还是全部处理）； (2) 处理所有作业，在这种情况下，我们只考虑对 (i, j) 一次。对于任何未知的工作都是如此，因此对于整个订购成本也是如此。
4.1.3。变量替换。 观察到修改后的 DP 的成本函数可以用以下量表示：未知工作的数量 (N)、中等比率工作的总权重 (ωM P i∈S Med wi )、高比率工作的总权重比率工作 (ωH P i∈S High wi )，中等比率工作的处理时间总和 (τM P i∈S Med ti )，已知工作实现的函数 (ωτ P i∈S Med∪S High Ɛ[min( Twi , tiW)]) 和一些其他常数（例如，Ɛ[TW]）。通过替换这些数量，我们建立了两种 DP 配方之间的等价性。那是，
()qed
请注意，状态空间的维度现在是 5（与第 2.3 节中的初始 DP 公式相比，其中维度高达 N0）。
观察到虽然这显着降低了问题的复杂性，但低维公式中的状态数仍然可能很大，因为它包含伪多项式项：0 ≤ N ≤ N0 , 0 ≤ ωM ≤ N0V, 0 ≤ ωH ≤ N0V，0≤τM≤N0D，0≤ωτ≤N0DV。出于这个原因，我们开发了一种 FPTAS，它为最优解提供近似值并保证多项式运行时间（对近似值有一定的依赖性）。
4.2. 最佳阈值策略
LD 公式除了具有低维度外，还具有几个有利的特性。它的参数是单调的，但更重要的是，它的最优解是一个阈值结构。也就是说，对于 N、ωM、ωH 和 τM 的每个值，都存在一个 ωτ 阈值，该阈值确定最佳动作是测试还是处理所有作业。
引理 6. 价值函数 JLD 在 τM 和 ωτ 中是不减的。
证明。请参阅在线附录中的第 A.10 节。
引理 7. 对于 N、ωM、ωH 和 τM 的每个值，存在一个阈值 ωτ，使得测试是最优控制，当且仅当，ωτ ≤ ωτ。
证明。 请参阅在线附录中的第 A.11 节。
引理 7 意味着当分布 D 的支持是离散的时，有一种表示最优策略的有效方法。 N、ωM、ωH 和 τM 可以取的不同值的数量是 N0、D 和 V 中的多项式，并且对于 (N, ωM, ωH, τM) 的每个值，恰好一个 ωτ 值足以描述最优策略。
但是，要找到这些阈值的实际值，我们需要求解 DP。由于状态空间呈指数增长，这无法使用标准 DP 方法完成。在下一节中，我们开发了一种近似方案来解决低维 DP 公式。
4.3. FPTAS
在第 4.1 节的 LD 公式的基础上，我们使用舍入技术 (Williamson and Shmoys 2011) 来公式化近似动态程序 (ADP)，然后将其用作 FTPAS 的基础。
为了便于阅读，我们在此介绍 FPTAS 的定义和近似方案（算法 1），并将关于算法构造和运行时间分析的讨论推迟到在线附录的 A.12 节。
定义 3. FPTAS 是一系列算法 {A }，其中每个 > 0 都有一个算法，使得 {A } 是一个 (1+ ) 近似算法（用于最小化问题）并且运行 {A } 的时间以 1/ 中的多项式为界。
算法1（近似算法）
定理 4. 算法 1 是一个完全多项式时间近似方案，用于带有测试问题的调度。

5. 短视策略

上一节中提出的最优和接近最优的算法解决方案使我们能够以多项式步数解决问题。但是，要为大型问题实例获得高精度解决方案（即的小值），即使多项式运行时间也可能不实用。另一方面，启发式方法可以有效地实现，但可能并不总是有足够好的性能保证。在本节中，我们研究了一种在相对一般的假设（包括所有工作具有相同权重的情况）下既有效又最优的短视政策。考虑到初始问题制定的状态空间中的高维性（在分析和表征最优策略之前），这似乎非常令人惊讶。
在陈述假设和主要定理之前，我们从定义开始。
定义 4. Process-all (PA) 是一种策略，其中所有作业都按其预期比率的非递减顺序进行处理。
定义 5. 单一测试策略 (STP) 是在处理所有作业之前测试单个未知作业的策略，按预期比率的非递减顺序（假设至少有一个未知作业）。
引理 8. 对于没有低比率工作且 N > 0 的任何状态 (N,[t1 , w1 , . . . , tn , wn ])，政策 PA 和 STP 之间的目标值差异等于
(7)
证明。 请参阅在线附录中的第 A.13 节。
假设 1. 对于所有具有中等比率的工作 i：ti ≤ Ɛ[T]，以及对于所有具有高比率的工作 i：wi ≤ Ɛ[W]。
图 6 说明了满足假设 1 的分布 D。这些分布的支持位于无阴影区域内。
有两个有趣的特殊情况满足假设 1。在第一个特殊情况下，所有作业具有相同的权重，但处理时间可能不同。低、中、高比率作业类别分别对应于处理时间短、中、长的作业。此外，测试阈值对应于一定的持续时间（比平均处理时间短），因此处理时间短于测试阈值的所有作业都应该立即处理。在测试阶段完成之前，所有中间和长期工作都将暂停。
在第二种特殊情况下，所有作业的处理时间相同，但权重可能不同。在这个在这种情况下，低、中、高比例的工作类别分别对应于具有高、中、低权重的工作。这里的测试阈值对应于最小权重（高于平均权重），因此所有权重高于此阈值的作业都应立即处理，而不会进一步延迟，而其余已知作业的权重较低或中等被搁置。
figure 6
对于满足假设 1 的所有问题实例，一个简单的短视规则支配停止测试的决定，如以下定理所示。
定理 5. 在假设 1 下，对于任何没有低比率作业且 N > 0 的状态 (N,[t1 , w1 , . . . , tn , wn ])，最优控制是处理所有作业，当且仅如果，以下条件成立：
(8)
证明。 请参阅在线附录中的第 A.6 节。
算法 2 总结了假设 1 下的最优策略。从技术角度来看，在假设 1 下，等式 (8) 存在单调性，即每次测试时，无论测试工作的实现如何，左 -手边和右手边增加。这意味着一旦左侧超过右侧（从短视的角度来看，这意味着我们想要停止），它将始终保持较高。在这种情况下，我们应用一个归纳论证，并证明任何测试的潜在最优策略都必须只测试一次，这意味着该策略是 STP 策略。这与这种潜在最优策略的最优性相矛盾，因为近视策略将测试 STP 策略是否优于处理所有工作。
从直观的角度来看，最优策略对阴影区域内的实现很敏感。按预期，它可能不值得测试一次，但如果实现的结果恰好是处理时间和权重异常高的结果，我们可能突然想要再次测试，因为与测试成本相比，次优计划的成本增加了。基于这种直觉，我们构建了一个示例，并表明当假设 1 不满足时，近视策略不一定总是最优的（参见在线附录中的 A.7 节）。
最后，我们注意到虽然近视策略可能并非对所有实例都是最优的（即，当假设 1 不满足时），但数值实验表明该策略在实践中表现得非常好。在一个广泛的计算实验中，包括解决超过 50,000 个不同的问题实例（不同测试时间、处理时间和权重分布的组合），涵盖了 1010 多个不同的状态，在大多数情况下，近视策略是最优的。此外，在最坏情况下，短视政策与最优政策下的预期目标之比为 1.1%。（有关实验的完整详细信息，请参见在线附录中的第 A.8 节。）
算法 2（短视策略算法）
1：按比率非递减的顺序处理比率低于 ρa 的所有工作。
2：满足以下条件时
()
3：测试作业，如果比率低，立即处理。
4：结束，而 5：按比例不递减的顺序处理所有作业，其中 ρ 是所有未知作业的比例，任意两个等比例的作业的处理顺序可以任意选择。

6. 测试的价值

在本节中，我们将讨论我们实际上可以从测试中获得多少收益的问题。我们首先分析一些简单的启发式方法，然后检查不同的问题参数如何影响测试的价值。
6.1。启发式
我们分析了三个简单策略的性能： • “Process-all”（PA，在第 3.1 节中介绍）； • “先测试”（TAF）； • “测试所有过程低比率”（TAPL）。
正如他们的名字所暗示的那样，在“首先测试”中，我们首先测试所有作业，然后以作业比率的非递减顺序处理它们。在“test-all process low-ratio”的策略下，我们测试所有未知的作业，但在所有测试完成后立即处理低比率的作业，并以非递减的顺序处理其他已知作业。请注意，策略 PA 和 TAPL 对应于最优策略的两个极端：第一个，当停止时间为零时，第二个，当停止时间为 N 时。我们用 OPT 表示最优策略。
6.1.1. 透视解决方案 (CL)。 我们使用透视解（CL）作为最优策略的下界。也就是说，当调度程序知道处理时间和权重时（或者如果测试时间为零），我们计算目标值。使用边际成本会计，目标价值是
()
客观价值包括自我强加成本（PN i1 TiWi ）和完美排序作业的订购成本（因为所有信息都是预先知道的）。
6.1.2. 全流程 (PA) 政策。 与千里眼的解决方案一样，我们使用边际成本会计来计算政策 PA 下的目标价值
()
每项工作的自我施加成本是Ɛ[TW]，并且每一对都为目标贡献了Ɛ[T]Ɛ[W]的成本（我们使用工作之间的独立性）。我们得到以下关于策略 PA 的客观值的界限：
()
我们对 PA 政策特别感兴趣，因为它可以在无法进行测试时作为比较的基础。
换句话说，将最优策略与全策略过程进行比较可以告诉我们测试的价值。
为了更好地了解界限，我们在其下方列出了未加权情况 (W 1) 的分布样本的值。为了便于阅读，证明包含在在线附录的 A.14 节中
引理 9. 如果 T ∼ Uni(a, b) 和 W 1，则策略 PA 是最优策略的 3(b + a)/(2(b +2a)) 近似值。
引理 10. 如果 T ∼ Exp(λ) 和 W 1，则策略 PA 是最优策略的 2 近似值。
引理 11. 如果 T ∼ a, w.p. p; ∼ b, w.p. 1 - p 和 W 1 策略 PA 是最优策略的 (pa + (1 - p)b)/(a + (1 - p) 2 (b - a)) 近似值。
在最后一个例子中，当 a 0, p 1/2 时，策略 PA 是 2 的近似值，而对于 a 0, b M, p 1 − 1/M，PA 是 M 的近似值。这意味着政策 PA 可以做任意坏事。当测试时间相对较短时，千里眼的解决方案接近最优策略，并且界限变得更紧。在这些示例中，我们看到测试可以将均匀分布的目标提高 33%，指数分布的目标提高 50%，并且在某些情况下可以做得更好（例如 M 近似）。
6.1.3. “测试全部优先”（TAF）政策。当测试时间很短时，在进行任何处理之前测试所有作业是有意义的，以便以最佳顺序执行处理。很容易看出
(9)
这导致近似比率为
()
事实上，随着 ta 接近零，TAF 策略变得最优。
6.1.4。 “测试所有过程低比率”（TAPL）政策。 策略 TAPL 背后的直觉是，可以尝试通过在检测到后立即处理低比率作业来改进策略 TAF（以遵循引理 12）。
与透视解决方案相比，TAPL 策略有两种类型的额外成本：因为测试延迟（因为它测试所有作业），以及因为次优处理顺序。用 Nl 表示低比率工作的数量，策略 TAPL 下的总预期成本可以写成如下：
(10)
有关完整推导，请参见在线附录中的第 A.15 节。比较策略 TAF 和 TAPL 下的成本，我们观察到策略 TAF 下的总测试时间损失 (taN2Ɛ[W]) 更高，但另一方面，处理顺序是最优的。换句话说，策略 TAPL 交易处理顺序的最优性，以换取更短的测试时间。
使用等式 (9) 和 (10)，我们可以得出结论，在什么情况下进行权衡是值得的。
6.2 工作的初始数量
我们继续研究测试的价值如何受到未知工作的初始数量的影响。具体来说，我们在测试最优的状态空间上使用充分条件，以找到控制测试一最优的次数的下限（假设 ρa < ρ）。
以下量对于描述最佳停止时间的下限很重要。
定义 6. 我们将停止因子 β 定义为
()
为了培养对 β 值的直觉，请考虑在处理另一个未知作业后立即测试未知作业的情况。停止因子 β 是早期测试（使用改进的时间表）节省的成本与测试的额外成本（我们测试时等待另一个作业）之间的比率。直观地说，β值越高，越有利于测试。（请注意，随着测试时间的减少，β 增加，这与我们的直觉相符，即对于更高的 β 值，测试更有利。）还要注意，当比率小于 1 时，测试不是最优的（因为 ρa < ρ ）。因此，我们可以假设 β 大于 1。
引理 12. 对于每个状态 (N, ωM , ωH , τM , ωτ)，其中 β > (NƐ[W]+ ωH)/(N -1)，最优控制是测试。
证明。 请参阅在线附录中的第 A.16 节。
Q.E.D.
请注意，引理 12 中不等式的左侧（即 β）是问题的常数，而右侧作为状态的函数动态演变。此外，β > 1，随着 N 变大，右侧趋于 1。因此，当初始未知作业的数量很大时，测试对于越来越多的作业是最佳的。从实际的角度来看，在具有许多未知工作的拥挤系统中，测试是最有益的。
在下一个定理中，我们使用引理 12 来获得最小测试次数的下界。
figure 7
定理 6. 对于工作权重的有限和对称分布，最优策略测试至少 Ntests 个周期，其中
()
证明。 请参阅在线附录中的第 A.9 节。 Q.E.D.
引理 12 表明未知工作的数量越多，我们就越有可能进行测试，即信息的价值随着 N0 的增加而增加。
引理 12 的另一个含义（可以类似于定理 6 推导出来）是，当起始状态有 N0 个未知工作时，要找到最优策略，我们需要解决只有 N β/(β -1) 个工作的 DP，也就是说，我们只需要求解一个恒定大小的 DP。虽然这个数量可能仍然很高（尤其是在测试时间很短的情况下），但它不依赖于 N0 ，这表明测试所有 N0 个作业并在它们具有低比率时处理它们的策略是渐近最优的（看到这个 , 我们简要地注意到 JLD(N0 , 0, 0, 0, 0) Θ(N2 0 )，而 JLD(β/(β − 1), ωM , ωH , τM , ωτ)Θ((β/(β −1))2+(β/(β−1))N0 )，这意味着立即测试和处理低比率作业可能不是最优的，直到成本随着 N0 渐近下降。
6.3. 测试时间
使用条件 ρ < ρa ，我们得出上述测试时间的阈值，该测试永远不是最优的。
定理 7. 如果测试时间大于 t max a : Ɛ[(ρW -T) + ]，则测试永远不会是最优的。
证明。 根据定义，如果 ta > t max a ，则 ta > Ɛ[(ρW -T) + ]。
因此，ρa > ρ（引理 3），测试不是最优的（定理 2）。 Q.E.D.
定理 7 提供了测试仍然有益的测试时间的上限。在第 6.2 节中，我们看到它实际上是可能的最小界限（当 ρa < ρ 时，对于足够大的 N0 值，测试总是最优的）。
6.4. 数值说明
为了说明上述观察结果，我们在图 7 中绘制了不同问题参数的测试值。具体来说，我们针对三个概率分布（见图 8）和三个初始工作数量值（N0 6, 7, 8)，作为测试时间 ta 的函数。我们在下面总结了我们的主要发现。
测试时间。对于所有曲线，我们看到当测试时间很长时，处理所有作业是最优的（即测试值为零，定理 7）。随着测试时间的减少，策略 PA 的性能恶化，最优策略是一个在 TAPL 到 PA 之间转换的两阶段策略。当 ta → 0 时，策略 PA 更差，其中最优策略与策略 TAF 和 TAPL 重合。
变化性。 为本实验选择的概率分布具有相同的平均值，但在其他方面不同。在图 7 中，我们看到两点分布的检验值最高，二项分布的检验值最低。也就是说，在上面的例子中，测试的值与处理时间的可变性。这个结果非常直观，因为我们通过测试具有更高处理时间分布可变性的作业来获得更多信息。
初始作业数。 我们还在图 7 中看到，测试的价值随着初始作业的数量而增加。这一观察起初可能看起来不直观，因为当系统中有更多作业时测试成本会增加（因为测试会延迟更多作业）。然而，当有更多工作时进行测试的好处似乎比额外的测试成本更重要。
figure 8
7. 扩展
在本节中，我们研究了问题的一般化，并表明可以使用第 3 节和第 4 节中介绍的分析和方法来解决它。具体来说，我们考虑测试没有揭示确切的处理时间和权重的情况，而是相应工作的类别。例如，在急诊科的情况下，测试可能会揭示患者需要的治疗，但实际服务时间和严重程度可能仍存在不确定性。
我们假设有 C 个类别，对于类别 i ∈ C，每个作业的处理时间和权重 Ti 和 Wi 是来自已知分布 Di 的随机变量，具有预期的处理时间 T¯ i 和预期权重 W¯ i 。作业属于第 i 类的概率用 p c i 表示（这意味着未知作业的预期处理时间和权重分别为 Ɛ[T] P p c i T¯ i 和 Ɛ[W] P p c i W¯ i ））。测试一项工作会揭示其类别并需要 ta 单位的时间。
在这里，我们用未知的、尚未测试的作业以及已测试的已知作业以及已知的类别表示（尽管实际处理时间和权重可能仍然是随机的）。
figure 9
图 9 说明了原始问题和广义问题之间的差异。在原始问题 (9(a)) 中，一旦执行测试，就知道确切的处理时间。另一方面，在广义问题（9（b））中，仅通过测试实现类，仅知道确切的处理时间处理后。请注意，在广义问题中，作业最多可以测试一次，也就是说，我们可以测试一个作业以找到它的类别以及处理时间和权重的相应分布 Di，但我们无法进一步测试它的确切值。另请注意，如果分布 Di 是退化的，则广义问题会简化为原始问题的离散实例。
最后，观察到这种概括可用于对测试中的错误进行建模，其中测试要么以某种概率揭示真实实现，要么测试以互补概率揭示错误实现（如 Sun 等人 2017 年的模型所捕获）。
我们简要地注意到，这可以通过定义与每个测试结果相对应的工作类别，并指定从该分布中随机变量实现为真值和假值的概率来实现。
虽然广义问题更复杂，但第 3 节的分析得以贯彻。特别是，我们可以证明这个问题等价于初始模型，其中每个类 C 被一个确定性作业替换，其处理时间和权重等于预期处理时间和作业类 C 的预期权重。直观地说，这如下来自期望算子的线性，并且因为目标函数（完成时间的加权总和）相对于单个处理时间和权重实际上是线性的（自我施加的成本不依赖于策略，可以忽略不计）。有关详细讨论和证明，请参见在线附录中的 A.17 节。
我们在结束本节时指出，虽然模型的基本假设是测试时间是一个常数，但很容易表明即使测试时间是一个随机变量 Ta 也可以得出结果，这可能与处理时间相关和测试工作的重量。在这种情况下，测试阈值 ρa 使用 Ta 的期望值（而不是使用 ta ）类似地定义。需要对第 2.3 节的 DP 公式进行小修改，具体而言，将表达式 N taƐ[W] 替换为项 (N − 1)Ɛ[Ta ]Ɛ[W] + Ɛ[WTa ]。我们还注意到，如果测试时间是处理时间的一部分，也就是说，测试将处理时间减少了 ta，则保留了最优策略的结构。然而，在这种情况下，测试阈值 ρa 小于原始问题的阈值。

8 结论

在本文中，我们介绍了一类新的模型，该模型捕获了许多调度问题中常见的主要探索-利用权衡。我们分析了这个问题，发现了最优策略的直观特征。对于大量情况，最优策略以停止规则的形式明确给出。对于所有其他情况，使用一种新的成本核算方案来制定低维 DP，从而产生最优和接近最优的算法。
我们研究了几种直观策略的性能以及问题参数如何影响测试的价值。最后，表明属性和算法扩展到更通用的模型。
调度问题中的测试概念似乎与许多其他环境相关。一些看起来很有趣的方向是具有作业和多个服务器到达的更通用的调度模型，可以控制测试程度的模型，以及揭示有关作业的其他信息的测试，例如它们的到期日期或到达次。