论文笔记

Mobility-Aware Edge Caching and Computing inVehicle Networks: A Deep Reinforcement Learning

一、文中解决了什么问题?
文中研究了联合通信、缓存和计算的设计问题,以实现车辆网络的运行优化和成本收益优化。在此基础上考虑了车辆的流动性和硬性服务期限约束,对资源分配的优化问题进行了研究。

二、问题是怎么解决的?
开发了基于深度Q学习算法的多时间尺度框架算法来配置资源分配的参数。为了减少大动作空间带来的复杂性,文中还提出了大时间尺度模型的移动感知奖励估计。

三、有什么亮点?
与以往直接用DQN算法解决问题不同,文中提出了多时间尺度算法,具体来说,分为两个时间尺度,大时间尺度是对于每个epoch(对应的Td时隙,Td是完成任务的截止时间),而小时间尺度是对于每个时隙t而言的。

Trust-based Social Networks with Computing, Caching and Communications:A Deep Reinforcement Learning Approach

一、文中解决了什么问题?
在本文中,利用了社交网络的本质,即用户之间通过社会关系形成的信任,使用户在计算、缓存和通信的框架下共享资源。具体来说考虑了移动边缘计算,网络内缓存和D2D的基于信任的移动社交网络。文中的优化目标是希望最大化网络运营商的收益。

二、问题是怎么解决的?
文中采用了深度Q学习的方法来学习资源分配策略。

三、有什么亮点?
在文中提出了一种基于贝叶斯推理的直接观察和基于登普斯特-沙弗理论的间接观察的社会信任方案。

Knowledge-Driven Service Offloading Decision forVehicular Edge Computing: A DeepReinforcement Learning Approach

一、文中解决了什么问题?
文中针对的是车辆边缘计算环境中的服务卸载决策问题,使总的时延达到最小。

二、问题是怎么解决的?
在文中提出了一种知识驱动(KD)的服务卸载框架。在文中提出了三种车辆边缘节点,着眼于边缘节点类型,对作为奖励的服务延迟作了计算,其中包含了由于车辆的移动性,可访问节点变化的因素。在文中用了A3C算法,在边缘节点上训练每种服务的卸载决策模型,然后将其分发给车辆。车辆在运行服务时,执行异步在线学习,并将新模型更新到边缘计算节点。

三、有什么亮点?
过去看的几篇文章都是用DQN算法来解决相关问题,而在这篇文章中用了A3C算法,A3c算法是AC算法的改进版,它采用异步训练的思想,利用了多个线程。每个线程相当于一个智能体在随机探索,多个智能体共同探索,并行计算策略梯度,对参数进行更新。或者说同时启动多个训练环境,同时进行采样,并直接使用采集的样本进行训练,这里的异步得到数据,相比DQN算法,A3C算法不需要使用经验池来存储历史样本并随机抽取训练来打乱数据相关性,节约了存储空间,并且采用异步训练,大大加倍了数据的采样速度,也因此提升了训练速度。与此同时,采用多个不同训练环境采集样本,样本的分布更加均匀,更有利于神经网络的训练。

When Edge Computing Meets Microgrid: A Deep Reinforcement Learning Approach

一、文章解决了什么问题?
在本文中,在考虑MEC服务器的计算任务卸载、微电网能源(即可再生,不可再生和存储)的发电特性以及启用微电网的MEC网络的能源供应计划的同时,研究了MEC网络的能耗。

二、问题是怎么解决的?
为解决所提出的多访问边缘服务器的能源供应计划问题,首先将提出的问题分解为两个子问题,其次,提出了一种基于DBSCAN的方法来测量网络的能耗,并同时在MEC上执行任务分配。根据通过微电网发电的MEC网络的能源需求,文中应用了MDRL算法来推导微电网能源供应计划的解决方案。

三、有什么亮点?
由于提出的问题是NP-hard,所以作者就想到把他分解成为两个子问题来解决,这一点值得学习。

Deep Reinforcement Learning Based ModeSelection and Resource Management for Green FogRadio Access Networks

一、解决了什么问题?
本文提出了一种雾无线接入网(F-RAN)在边缘缓存状态动态变化下最小化系统长期功耗的方法。

二、问题是怎么解决的?
文中作者选择了使用深度强化学习算法中的DQN算法来解决问题。提出了基于DRL的联合模式选择和资源管理方法。每个用户可在云RAN(C-RAN)模式或者D2D模式下运行,所管理的资源包括无线资源和计算资源。网络控制器可以使用训练好的DRL模型在给定当前系统状态的情况下对用户设备的通信模式和处理器的开关状态做出快速而智能的决策。然后基于迭代算法在每个UE的服务质量约束,每个RRH的传输功率约束和云中的计算能力约束下优化云RAN模式下的UE的预编码。

三、有什么亮点及启发?
在文中直接将奖励函数设置为系统总功耗的负数,这点比较有启发,这样的设定方式很巧妙,既简单又有用。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值