本周复现了这篇文章,分享一下阅读收获~
文章名称
摘要
本文提出了一种基于元强化学习的任务卸载方法,该方法可以在少量梯度更新和样本的情况下快速适应新环境。该方法将移动应用程序建模为有向无环图(DAG),将计算迁移过程转换为序列预测过程,并通过自定义序列到序列(seq2seq)神经网络进行卸载策略。为了有效地训练seq2seq网络,提出了一种一阶近似来降低训练成本和裁剪替代目标协同的方法。评估在以下场景:1)异构用户对移动应用的个人偏好,将其表示为具有不同高度、宽度和任务数量的DAG。2)根据用户设备(UE)与多址边缘计算(MEC)主机之间的距离变化传输速率。针对不同的DAG拓扑结构、任务数量和传输速率进行了仿真实验。实验结果表明,与微调DRL方法、贪婪算法和基于heft的3种基线算法相比,MRLCO可以将延迟降低25%,同时能够快速适应新环境。
文章贡献
•首次提出了一种基于MRL的计算卸载方法,实现了对动态卸载场景的快速适应。MRLCO对于新的学习任务具有较高的样本效率,因此即使在计算资源有限的情况下,UE也可以使用自己的数据来运行训练过程。
•本文提出了一种新的思想,将动态计算卸载过程建模为多个马尔科夫决策过程(MDP),其中卸载策略的学习被分解为两个部分:在不同MDP之间有效地学习一个元策略,以及基于元策略快速学习每个MDP的特定策略。
•将卸载决策过程转换为序列预测过程,并设计了自定义seq2seq神经网络来表示卸载策略。同时考虑