自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 论文阅读笔记|基于知识转移的深度多任务多智能体强化学习

尽管多智能体强化学习(MARL)在解决众多复杂任务方面具有潜力,但训练单个MARL智能体团队来处理多个不同的团队任务仍然是一个挑战。本文提出了一种基于知识转移的多任务协作MARL方法(MKT-MARL)。通过向特定任务的教师学习,我们的方法使单个代理团队能够在多个任务中获得专家级的表现。MKT-MARL采用了一种专门为多智能体架构设计的知识蒸馏算法,该算法可以从特定任务教师的经验中快速学习到包含共同协调知识的团队控制策略。此外,我们通过教师退火来增强这种训练,逐渐将模型的学习从蒸馏转向环境奖励。

2023-12-29 17:00:22 544

原创 Deep Decentralized Multi-task Multi-Agent RL under Partial Observability——论文阅读笔记

在第二阶段,每个智能体的专门化策略被提炼成一个通用的策略,提炼的方法参考Rusu et al. (2015),具体做法从专门化策略中学习到的Q值网络中提取知识,并将其转移到一个新的通用Q值网络中。(2)为每个任务学习专门的策略可能会导致问题,因为智能体不仅要为每个任务存储不同的策略,而且在实际应用中任务的id往往是不可观察的,难以做到任务和策略的匹配。利用每个智能体对不同任务得到的Q值,希望多任务的网络训练的Q值与之接近,这里就有点类似于监督学习的问题,单任务的Q值作为标签去训练这个多任务网络。

2023-12-29 10:56:22 480

原创 并行仿真原理——死锁的检测与恢复

(6)如果LP被阻塞,而且该LP是树中的叶节点,那么LP会发信号给它的父节点,通知它自己已经不在树中了,当一个LP所有的子节点都已通知自己从树中移除时,这个LP就变成了叶节点。(4)当一个未占用的进程接收到消息时,它将被占用(添加到树中)当参与进程是叶节点并且处于空闲状态(阻塞)时,它将脱离(从树中移除)。C大于零,则LP被注册,C,D=0则LP未被注册,C大于零且D等于0,则LP被注册且为叶节点。(3)计算随着进程发送消息而扩展构建一个进程树,随着计算的扩展而扩展,随着进程空闲而收缩。

2023-12-25 09:10:23 363

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除