一、摘要
DRL可用于决策和自动控制等,可以解决自动驾驶网络中的优化问题(如路由优化)。然而,应用于网络的现有的基于DRL的解决方案无法泛化,这意味着在有新的未观察到的网络拓扑时,无法正常运行。原因是,现有的DRL使用标准神经网络(如全连接、卷积),这些网络不适合从图像结构的信息中学习。于是,本文将GNN集成到DRL代理中,并设计了一个特定于问题的动作空间以实现泛化。GNN 是深度学习模型,本质上是为了泛化不同大小和结构的图而设计的。这使得所提出的基于 GNN 的 DRL 代理能够在任意网络拓扑上学习和泛化。论文证明了所提出的模型有较好的泛化性。
二、背景
1. GNN:使用消息传递神经网络(MPNN),每个节点k接受来自所有邻居节点的消息N(k)。通过消息传递函数集合节点的隐藏状态进行传递,聚合各个来自邻居节点的信息后,更新,得到每个节点的新的隐藏状态。
2. DRL :通过探索状态和动作空间的迭代过程来学习最优策略。给定一个状态s和动作a,缠身过一个新的状态s'和奖励r,目标时找到一种策略,在episode结束时最大化累计奖励。
三、网络优化场景
探讨基于GNN的DRL代理解决光传输网络(OTN)中的路由问题。DRL代理位于控制平面内,具有当前网络状态的全局视图,并且必须在每个流量需求到达时做出路由决策。将流量需求视为从源