1 目的:最小化时延,最大化奖励 r=-dealy
maximize reward by minimizing the processing delay
2 框架内代码分析
2.1 状态维度和行动维度(数据——行动)
状态维度state_dim=2*(V+S+M)+2*N+N+N
***通过_get_obs()方法返回给reset()方法返回给环境状态向量s,表示当前环境的状态。
- lock:所有服务器(V+S+M个)的位置(2(V+S+M)个数据)
- loc_ue_list:所有uv的位置(2N个数据)
- task_list:所有uv的任务大小(N个数据)
- block_flag_list:所有uv的遮挡情况(N个数据)
行动维度action_dim=2*N+2*V
***将a作为动作向量传入step()方法,表示智能体当前时隙采取的动作
- 每个用户要卸载的服务器编号e[N]——acton[0~119]
- 每架无人机的飞行角度theta[V]——acton[1