强化学习
文章平均质量分 79
王又又upupup
这个作者很懒,什么都没留下…
展开
-
Mobile Edge Computing —— Paper List
Mobile Edge Computing —— Paper List本博客主要是为了记录看过的一些有关于移动边缘计算的论文,并做一个分类。所有文章均已附上地址以供下载。综述1.张开元,桂小林,任德旺,李敬,吴杰,任东胜.移动边缘网络中计算迁移与内容缓存研究综述[J].软件学报,2019,30(08):2491-2516.2.朱友康,乐光学,杨晓慧,刘建生.边缘计算迁移研究综述[J].电信科学,2019,35(04):74-94.3.丁春涛,曹建农,杨磊,王尚广.边缘计算综述:应用、现状及挑战[J原创 2020-10-11 09:49:23 · 3329 阅读 · 8 评论 -
soft q-learning的一些资料整理
SQL的一些资料整理1.https://www.cnblogs.com/Lzqayx/p/12156899.html2.https://blog.csdn.net/uwr44uouqcnsuqb60zk2/article/details/783339903.https://bair.berkeley.edu/blog/2017/10/06/soft-q-learning/4.https://zhuanlan.zhihu.com/p/70360272原创 2020-09-05 16:51:42 · 762 阅读 · 0 评论 -
强化学习之SAC(soft actor-critic)算法
强化学习之SAC(soft actor-critic)算法PPO算法是目前最主流的DRL算法,但是PPO是一种on-policy算法,存在sample inefficiency的缺点,需要巨量的采样才能学习。DDPG及其拓展是面向连续控制的off-policy的算法,相对于PPO来说更sample efficient,但是它存在对其超参数敏感,收敛效果差的问题。SAC算法是面向最大熵强化学习开发的一种off-policy算法。与DDPG相比,SAC使用的是随机策略,相比确定性策略具有一定的优势。随机策略原创 2020-08-18 19:12:11 · 27694 阅读 · 3 评论 -
强化学习之PPO(Proximal Policy Optimization Algorithms)算法
强化学习之PPO(Proximal Policy Optimization Algorithms)算法PPO算法提出了新的目标函数可以再多个训练步骤实现小批量的更新,解决了策略梯度算法中步长难以确定的问题。如果步长太小,训练时间就会过长。如果步长过大,有用信息会被噪音掩盖(因为每个数据影响都很大),或者令性能灾难性的下降,难以收敛。on-policy与off-policy的区别...原创 2020-08-13 15:45:34 · 15541 阅读 · 1 评论 -
论文笔记
Mobility-Aware Edge Caching and Computing inVehicle Networks: A Deep Reinforcement Learning一、文中解决了什么问题?文中研究了联合通信、缓存和计算的设计问题,以实现车辆网络的运行优化和成本收益优化。在此基础上考虑了车辆的流动性和硬性服务期限约束,对资源分配的优化问题进行了研究。二、问题是怎么解决的?开...原创 2020-08-13 13:53:07 · 438 阅读 · 0 评论 -
论文笔记
论文笔记此篇博文用于记录阅读一些论文之后所得。Computation Offloading in Multi-access Edge Computing using Deep Sequential Model based on Reinforcement Learning一、论文解决了什么问题?由于MEC卸载问题是NP-hard的,现有的卸载策略研究大多都基于启发式算法,但随着MEC应用和...原创 2020-02-17 19:35:42 · 2029 阅读 · 1 评论 -
论文笔记3 2020.1.31
论文笔记3此篇博文用来记录阅读论文《Deep reinforcement learning for mobile edge caching:Reniew,new features,and open issues》后的收获。论文主要内容感觉这篇论文比较像一篇综述。文章对移动边缘缓存中有关DRL的最新研究进行了综合分析。首先介绍了边缘缓存的基本知识,并总结了实现context-aware 和智能...原创 2020-01-31 14:12:42 · 321 阅读 · 2 评论 -
论文笔记2 2020.1.27
论文笔记 2此处用来记录学习论文《Artificial Intelligence Empowered Edge Computing and Caching for Internet of Vehicles》后的收获。论文解决了什么问题?车载应用的异构需求和内容普及的时变性给边缘服务器有效利用其资源带来了巨大的挑战。此外,车辆具有高移动性,增加了联合优化计算和缓存的复杂性质。文中提出了一种新的...原创 2020-01-27 19:34:51 · 290 阅读 · 0 评论 -
论文笔记1 2020.01.26
论文笔记 1用于记录看论文《Software-Defined Networks with Mobile Edge Computing and Caching for Smart Cities: A Big Data Deep Reinforcement Learning Approach》之后的收获。解决了什么问题?智慧城市正在成为全球研究和发展的重点,为市民提供更高的生活质量和各种创新的...原创 2020-01-26 20:09:28 · 227 阅读 · 0 评论 -
8.22-8.29强化学习 学习心得
学习心得这一周都在学习强化学习的有关内容,前五章的学习都比较顺畅,到了第六章碰到了小困难,David Silver的第六个视频讲解的不是很清晰,公式一多,脑子就比较混乱了。后来又看了别人的学习笔记,才变得清晰了一些。下面是我对所学算法的理解。算法理解1.DP(动态规划)动态规划又分为策略迭代和价值迭代。策略迭代:从一个初始策略 π 和初始价值函数 V 开始,基于该策略进行完整的价值评估...原创 2019-08-29 14:22:07 · 321 阅读 · 0 评论 -
8.15-8.22学习心得
学习心得这周主要学习了强化学习的内容,先是在B站上看了三节视频,由于视频语速太快,翻译有点问题,所以看下来觉得有点难以理解,后来发现搭配讲义来看会比较容易理解,于是又把前三节讲义看了一遍,觉得又清晰了很多。总之,这不是一门很容易学习的课程,只能自己多看看,多多理解吧。学习笔记1.我对强化学习的理解:强化学习的目标应该是有两个:一个是时间短,另一个是得到最好的策略。强化学习主要包含有四个元...原创 2019-08-22 13:19:50 · 241 阅读 · 0 评论