【DAY20240926】智能时隙选择器

胆小鬼~

已于 2024-09-26 15:52:17 修改

阅读量802

点赞数 7

文章标签：机器学习

于 2024-09-26 15:50:34 首次发布

本文链接：https://blog.csdn.net/weixin_52881828/article/details/142532664

版权

文章目录

要点

要点

The intelligent time slot selector is composed of a meta model on the server and a local model on each device.
论文中介绍了一种智能时隙选择器（Intelligent Time Slot Selector）的设计，该选择器在服务器和设备端分别有一个元模型（Meta Model）和本地模型（Local Model），用于优化设备何时请求新的全局模型并参与联邦学习中的聚合过程。

我们利用基于长短期记忆(LSTM)的网络，对元模型使用完全连接层，对每个本地模型使用q -学习方法(Watkins and Dayan 1992)。

元模型和局部模型都会生成每个时隙的概率。我们利用ϵ-greedy策略(Xia and Zhao 2015)进行选择。

元模型和本地模型的关系

服务器上的元模型（Meta Model）和每个设备上的本地模型（Local Model）**共同决定设备何时请求全局模型更新。元模型最初为设备提供初始的时隙决策，然后本地模型根据设备自身的情况动态更新时隙。

lstm模型更新

在这里插入图片描述
θ t ：表示第 𝑡次元模型更新后的参数。
η RL ：学习率，用于控制强化学习训练过程的步长。
∑ L l=1 ：对 L 个本地训练 epoch 求和，表示在每个 epoch 上累积的梯度贡献。
L：本地训练的最大 epoch 数（局部训练的轮次）。
σ𝑙：表示设备是否在第 𝑙轮次发送了模型请求（1 表示发送，0 表示未发送）。
R：奖励值，用于强化学习的反馈信号。奖励值定义为模型聚合前后的损失差异，用于衡量模型更新的效果。
b t：用于减少模型偏差的基线值。
P(σ𝑙∣σ𝑙-1:1;θ t−1)：条件概率，表示在过去几次 epoch 决策的基础上，设备在第 𝑙次训练后选择发送请求的概率。
∇ θ t−1P(σ𝑙∣σ𝑙-1:1;θ t−1)：这是一个梯度，表示模型对参数 θ t−1 的更新，它基于设备在第 𝑙次本地训练后是否发送请求（𝜎𝑙是一个决策变量，1 表示发送请求，0 表示不发送请求）。