【DAY20240926】智能时隙选择器


要点

The intelligent time slot selector is composed of a meta model on the server and a local model on each device.
论文中介绍了一种智能时隙选择器(Intelligent Time Slot Selector)的设计,该选择器在服务器和设备端分别有一个元模型(Meta Model)和本地模型(Local Model),用于优化设备何时请求新的全局模型并参与联邦学习中的聚合过程

我们利用基于长短期记忆(LSTM)的网络,对元模型使用完全连接层,对每个本地模型使用q -学习方法(Watkins and Dayan 1992)。

元模型和局部模型都会生成每个时隙的概率。我们利用ϵ-greedy策略(Xia and Zhao 2015)进行选择


元模型和本地模型的关系

服务器上的元模型(Meta Model)和每个设备上的本地模型(Local Model)**共同决定设备何时请求全局模型更新。元模型最初为设备提供初始的时隙决策,然后本地模型根据设备自身的情况动态更新时隙。


lstm模型更新

在这里插入图片描述
θ t​ :表示第 𝑡次元模型更新后的参数。
η RL​ :学习率,用于控制强化学习训练过程的步长。
∑ L l=1 :对 L 个本地训练 epoch 求和,表示在每个 epoch 上累积的梯度贡献
L:本地训练的最大 epoch 数(局部训练的轮次)。
σ𝑙:表示设备是否在第 𝑙轮次发送了模型请求(1 表示发送,0 表示未发送)。
R:奖励值,用于强化学习的反馈信号。奖励值定义为模型聚合前后的损失差异,用于衡量模型更新的效果
b t:用于减少模型偏差的基线值
P(σ𝑙∣σ𝑙-1:1;θ t−1):条件概率,表示在过去几次 epoch 决策的基础上,设备在第 𝑙次训练后选择发送请求的概率。
∇ θ t−1P(σ𝑙∣σ𝑙-1:1;θ t−1):这是一个梯度,表示模型对参数 θ t−1 的更新,它基于设备在第 𝑙次本地训练后是否发送请求(𝜎𝑙是一个决策变量,1 表示发送请求,0 表示不发送请求)。


Q-learning

Q学习是强化学习中的一种无模型的学习算法,旨在帮助智能体通过与环境的交互逐步学习最优的策略,以最大化长期回报。强化学习的基本目标是让智能体在给定状态下选择最优的动作,从而获得最大的累计奖励

Q学习 是一个强化学习算法,用于根据设备的实际训练表现和奖励(例如聚合前后的损失差异)来学习和优化设备的时隙调整策略

回报是智能体在当前时刻之后未来奖励总和。通常在回报中加入折扣因子(discount factor, 𝛾),来表示未来奖励相对于当前奖励的重要性
标准Q学习的公式
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述在这里插入图片描述
:表示在第 𝑡𝑖轮次中,设备 𝑖Q 函数值 H 𝑡𝑖 𝑖 。反映了在第 𝑡𝑖−1 轮本地模型聚合中,当选择了动作 𝑎𝑡𝑖−1 时,设备的表现。Q 函数H 𝑖是决策 𝑎𝑡𝑖−1和奖励之间的映射

在这里插入图片描述
:是前一轮次(𝑡𝑖−1)的 Q 函数值。

ϕ:学习率,控制 Q 函数更新的步长
R:奖励值,表示模型聚合前后的损失差异。
ψ:折扣因子,用于调节未来奖励的影响

在这里插入图片描述
在第 𝑡𝑖−1 轮次中,选择最优动作 𝑎 对应的最大 Q 值,用于引导 Q 函数的更新。

在这里插入图片描述
设备 𝑖在第 𝑡𝑖−1 轮次选择的本地训练 epoch 数,代表设备在本地训练了多少次后发送模型更新请求。


选择策略:ϵ-greedy

在选择设备何时发送模型更新请求时,算法采用了 ϵ-greedy 策略。这种策略结合了探索(exploration)和利用(exploitation):
𝜖 值:有一部分的概率𝜖 选择随机决策(探索新的可能性),其余时间选择目前最优的决策(利用已有的经验)。


动作空间(𝑎𝑡𝑖−1∈{add,stay,minus}):

在这里插入图片描述


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

胆小鬼~

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值