供应链 | 基于图神经网络和深度强化学习的柔性车间调度方法

编者按

本次解读的文章发表于IEEE TRANSACTIONS ON INDUSTRIAL INFORMATICS,原文摘要总结如下:本文考虑了众所周知的灵活作业车间调度问题,并通过提出一种新颖的深度强化学习(DRL)方法来端到端地学习高质量的优先级调度规则(PDR) 来解决这些问题。操作选择和机器分配被组合为一个复合决策。此外,基于一种新颖的调度状态异构图表示,提出了一种基于异构图神经网络的体系结构来捕获操作和机器之间的复杂关系。实验表明,所提出的方法优于传统的 PDR,并且计算效率高,即使在训练中未见过的更大规模和不同属性的实例上也是如此。

1 引言

本文重点介绍灵活的作业车间调度问题 (FJSP),它是作业车间调度问题 (JSP) 的众所周知的推广,在云制造中具有广泛的应用。与 JSP 不同,FJSP 允许在一组可选机器中的任何机器上处理操作。

关键研究问题:
1)如何制定调度过程以结合机器分配;
2)如何设计表示方案和神经架构以从原始调度状态中提取有用信息。
针对研究问题 1):本文提出了一种用于基于 PDR 的 FJSP 调度的马尔可夫决策过程(MDP)公式,其中一个动作是选择一个合格的操作-机器 (O-M) 对,这样就可以同时做出操作选择和机器分配决策。
针对研究问题 2),通过扩展具有机器节点的 FJSP 的析取图,本文提出了一种新颖的异构图结构来表示 MDP 状态,从而可以捕获操作和机器之间的复杂关系。

此外,本文提出了一种两阶段图神经网络(GNN)来获得异构图中节点的特征嵌入,在此基础上使用近端策略优化(PPO)设计和训练策略网络。与现有的基于 DRL 的调度方法中使用的 GNN 不同,本文提出的 GNN 专门用于 FJSP 的异构图,它捕获了不仅是操作的状态,还有机器和 O-M 关系的状态。

2 FJSP问题

3 析取图

4 方法概述

在本文中,解决FJSP被认为是一个顺序决策过程,它迭代地采取调度动作,将一个操作分配给每个状态的兼容机器,直到所有操作都被调度。所提出方法的工作流程如图2所示。在每次迭代中,调度状态首先转换为异构图结构。然后,将具有两阶段嵌入过程的异构图神经网络(HGNN)应用于异构图,以提取操作和机器的特征嵌入,决策网络使用这些嵌入来生成动作概率分布,从中采样调度操作。

5 马尔科夫决策过程

6 异构图

7 异构图神经网络

8 策略训练

9 实验结果

为了进行测试,使用贪婪策略和采样策略对策略进行测试,分别命名为DRL-G 和DRL-S。对于每个训练规模,表1报告了从与训练相同的分布中抽取的 100 个测试实例的 OR-Tools 解决方案的平均完工时间和差距。对于基于 PDR 的方法,所提出的方法(在两种策略中)在四种训练规模中始终优于所有基线 PDR。为了进行更详细的比较,将所提出的方法作为参考来计算每个基线 PDR 的差距,箱线图如图5所示。可以观察到,所提出的方法在近 75% 的实例上超过了 MWKR。

本文进一步检验了所提出的大小不可知策略在推广到未见过的大型实例方面的能力。为此,在 20 × 10 实例上训练的策略直接在 30 × 10 和 40 × 10 实例上运行,结果总结在表2中。可以观察到,所提出方法的优势在这些大型实例上仍然保持,表明在小型和中型实例上学习的模式在解决大型实例时仍然有效。

本文在基准实例上评估训练策略在传统研究中经常使用的两个公共基准上的泛化性能。表3总结了结果。

与最近在mk基准上报告结果的方法相比,所提出的方法明显优于它(在 20×5 实例上训练的策略除外),显示了 HGNN 在提取丰富状态信息方面的优势更好的决策。

参考文献

•Song W, Chen X, Li Q, et al. Flexible Job-Shop Scheduling via Graph Neural Network and Deep Reinforcement Learning[J]. IEEE Transactions on Industrial Informatics, 2022, 19(2): 1600-1610.

•F. Ni et al., “A multi-graph attributed reinforcement learning based optimization algorithm for large-scale hybrid flow shop scheduling problem,” in Proc. 27th ACM SIGKDD Conf. Knowl. Discov. Data Mining, 2021, pp. 3441–3451.

作者信息

•Wen Song, Institute of Marine Science and Technology, Shandong University, Qingdao, China.

•Xinyang Chen, School of Control Science and Engineering, Shandong University, Jinan, China.

•Qiqiang Li, School of Control Science and Engineering, Shandong University, Jinan, China.

•Zhiguang Cao, Singapore Institute of Manufacturing Technology, Singapore.

  • 2
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
基于多动作深度强化学习柔性车间调度是指利用深度强化学习算法来解决车间调度问题,并且考虑到车间调度的灵活性。 在柔性车间调度研究中,我们首先需要建立一个深度强化学习模型,这个模型可以使用Python代码来实现。我们可以使用强化学习库如TensorFlow或PyTorch来构建和训练深度强化学习模型。 在建立模型时,我们需要定义状态、动作和奖励。在柔性车间调度中,状态可以包括车间的当前状况如机器的忙闲状态、工件的等待时间等。动作可以是指派工序给机器或者指派工件给机器。奖励可以根据车间的效率和成本进行设计,例如,完成工件的时间越短,奖励越高。 接下来,我们需要使用强化学习算法来训练模型。例如,可以使用深度 Q 学习算法(DQN)将车间调度问题转化为一个马尔可夫决策过程,并通过反复迭代来优化模型的性能。 在实际运行中,我们可以使用训练好的模型来进行车间调度。根据当前车间的状态,模型可以根据当前的策略选择最优的动作,并根据之前的经验来调整策略。 总结而言,基于多动作深度强化学习柔性车间调度研究是利用深度强化学习算法来解决车间调度问题,并且考虑到车间调度的灵活性。我们可以使用Python代码来实现这个模型,并利用强化学习算法进行训练和优化。利用训练好的模型,我们可以在实际运行中进行车间调度

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值