【笔记】自用,写

本文笔记探讨了使用深度强化学习(DDPG & DQN)进行无人机调度的问题,目标是最小化时延并最大化奖励。状态维度包括服务器位置、用户位置、任务大小和遮挡情况,行动维度涉及用户卸载选择、无人机飞行角度和距离以及卸载率。在每个时隙,智能体会根据预定义的规则更新其动作,并在特定条件满足时进行重置。
摘要由CSDN通过智能技术生成

1 目的:最小化时延,最大化奖励 r=-dealy

maximize reward by minimizing the processing delay
2 框架内代码分析

2.1 状态维度和行动维度(数据——行动)

状态维度state_dim=2*(V+S+M)+2*N+N+N

***通过_get_obs()方法返回给reset()方法返回给环境状态向量s,表示当前环境的状态。

  • lock:所有服务器(V+S+M个)的位置(2(V+S+M)个数据)
  • loc_ue_list:所有uv的位置(2N个数据)
  • task_list:所有uv的任务大小(N个数据)
  • block_flag_list:所有uv的遮挡情况(N个数据)

行动维度action_dim=2*N+2*V

***将a作为动作向量传入step()方法,表示智能体当前时隙采取的动作

  • 每个用户要卸载的服务器编号e[N]——acton[0~119]
  • 每架无人机的飞行角度theta[V]——acton[1
  • 8
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值