![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
论文笔记
文章平均质量分 91
邵政道
这个作者很懒,什么都没留下…
展开
-
【论文笔记】Population Based Training of Neural Networks(PBT)+ Real World Games Look Like Spinning Tops
谷歌DeepMind团队在2017年文章《Population Based Training of Neural Networks》中提出的PBT算法,看似比较简单和朴素,但是在实际应用中结果表现良好。原创 2022-08-30 17:23:19 · 1650 阅读 · 0 评论 -
【论文笔记】Neural Auto-Curricula (NAC)
论文发表于NeurIPS 2021,属于多智能体强化学习领域。目前我还没有找到介绍这篇paper的相关博客。写一点自己的心得就当作是抛砖引玉了。在多智能体强化学习训练过程中,常常会创建agent的种群,通过对“对手种群策略”的best response(BR)来更新迭代自身策略,如NFSP、Double Oracal等。在这种算法框架下,“与谁竞争”和“如何学习BR”就成了绕不过去的点。............原创 2022-08-25 19:50:36 · 544 阅读 · 0 评论 -
【论文笔记】XDO: A Double Oracle Algorithm for Extensive-Form Games
论文发表于NeurIPS 2021,属于多智能体强化学习领域。目前我还没有找到介绍这篇paper的相关博客。写一点自己的心得就当作是抛砖引玉了。原创 2022-08-23 16:35:02 · 2615 阅读 · 0 评论 -
【论文笔记】policy-space response oracles (PSRO)
这是一篇2017年发表的论文,属于多智能体强化学习领域和博弈论的交叉。在了解这篇文章之前,需要先弄清楚NFSP这类自博弈的概念。之前读这篇论文一直感觉有些看不懂,误以为PSRO和NFSP那一系列非常不一样,是自己不太能学会的新方向。在自己用类似RL+三脚猫self-play做了一个扑克AI算法后,再来重读文章就发现,其实很多地方的思想都是很朴素的,理解起来障碍也少了很多。吐槽一句,InRL会对对手的策略过拟合,自己动手做了才深有感触。...原创 2022-08-18 15:45:22 · 2566 阅读 · 3 评论 -
【论文笔记】强化学习DQN专题经典论文6篇
论文列表详见:openAI spinning-up key paper list原创 2021-09-23 15:43:50 · 5760 阅读 · 0 评论 -
【论文笔记】分布型强化学习(Distributional RL)专题5篇
主要介绍分布型强化学习(不是分布式强化学习)。分布型强化学习主要是学习一个Q的分布,从而训练出有风险偏好性的agent。原创 2021-11-03 21:21:34 · 1610 阅读 · 0 评论 -
【论文笔记】强化学习策略梯度(PG)专题经典论文8篇
Policy Gridient专题论文阅读介绍了8篇经典的强化学习策略梯度方法的论文。原创 2021-10-18 21:41:20 · 1586 阅读 · 0 评论 -
【论文阅读】强化学习-Transfer and Multitask RL专题8篇
文章目录引子 什么是Transfer and Multitask RLProgressive Neural Networks, Rusu et al, 2016. Algorithm: Progressive Networks.Universal Value Function Approximators, Schaul et al, 2015. Algorithm: UVFA.Reinforcement Learning with Unsupervised Auxiliary Tasks, Jaderber原创 2021-11-10 15:56:05 · 2279 阅读 · 0 评论 -
【论文阅读】强化学习-Other Directions for Combining Policy-Learning and Q-Learning专题4篇
文章目录Combining Policy Gradient and Q-learning, O’Donoghue et al, 2016. Algorithm: PGQL.The Reactor: A Fast and Sample-Efficient Actor-Critic Agent for Reinforcement Learning, Gruslys et al, 2017. Algorithm: Reactor.Interpolated Policy Gradient: Merging On-P原创 2021-11-12 15:31:25 · 3089 阅读 · 0 评论 -
【论文笔记】强化学习论文阅读-Model-Based RL 9篇
来自我的组会报告ppt文章目录引子a. Model is learnedImagination-Augmented Agents for Deep Reinforcement Learning, Weber et al, 2017. Algorithm: I2A.(deepmind)Neural Network Dynamics for Model-Based Deep Reinforcement Learning with Model-Free Fine-Tuning, Nagabandi et al,原创 2022-03-09 20:50:20 · 3972 阅读 · 1 评论 -
【论文笔记】ICLR2022 Oral Presentations 强化学习论文5篇
来自我的组会报告ppt。文章目录引子Provably Filtering Exogenous Distractors using Multistep Inverse DynamicsThe Information Geometry of Unsupervised Reinforcement LearningVision-Based Manipulators Need to Also See from Their HandsTransform2Act: Learning a Transform-and-Co原创 2022-03-11 14:22:08 · 4309 阅读 · 0 评论 -
【论文笔记】AAAI2022多智能体强化学习论文五篇
修改自我的组会报告ppt。文章目录引子Anytime Multi-Agent Path Finding via Machine Learning-Guided Large Neighborhood SearchMAPF-LNS2: Fast Repairing for Multi-Agent Path Finding via Large Neighborhood SearchScenic4RL: Programmatic Modeling and Generation of Real-time Strat原创 2022-03-17 14:36:04 · 5729 阅读 · 0 评论 -
【论文笔记】AAAI2022论文精读-AlphaHoldem
修改自我组会报告,具体细节请读原文。文章目录引子背景介绍德州扑克规则论文贡献信息编码方式网络结构自博弈算法性能比较引子论文标题是:AlphaHoldem: High-Performance Artificial Intelligence for Heads-Up No-Limit Texas Hold’em from End-to-End Reinforcement Learning在写这篇文章的时候,论文还没有正式发布,我这里读的是预发布版本。我邮件联系了论文作者之一的兴军亮老师,他的回复是:原创 2022-03-23 17:08:06 · 3834 阅读 · 2 评论 -
【论文笔记】非完美信息多智能体博弈棋牌类AI论文五篇
文章目录引子OpenHoldem: A Benchmark for Large-Scale Imperfect-Information Game Research,arxiv2020SuphX: Mastering Mahjong with deep einforcement learning. 2020RLCard: A Toolkit for Reinforcement Learning in Card GamesDouZero: Mastering DouDizhu with Self-Play De原创 2022-03-25 10:24:06 · 6031 阅读 · 0 评论 -
【论文笔记】AP聚类算法解读
简单介绍理解成本较高却异常好用的聚类算法。原创 2022-04-01 10:28:01 · 2182 阅读 · 0 评论 -
【论文笔记】MOBA类游戏中的强化学习论文5篇
文章目录引子论文列表用AI打星际争霸(RTS):Grandmaster level in StarCraft II using multi-agent reinforcement learning整体结构训练模型结构用AI打dota:Dota 2 with Large Scale Deep Reinforcement Learning, 2019整体模型网络结构值得一提的Surgery技术用AI打王者荣耀:Hierarchical Macro Strategy Model for MOBA Game AI,原创 2022-04-01 15:57:40 · 6115 阅读 · 3 评论 -
【论文笔记】多智能体强化学习值分解基础论文5篇
IQL、COMA、VDN、QMIX、QTRAN算法大致思路梳理原创 2022-04-14 20:17:17 · 4097 阅读 · 0 评论 -
【论文笔记】DRL safety专题经典论文6篇
文章目录引子AI safety in RL高维约束策略优化(CPO)DDPG+SafeLayer人为干预降低专家信息的质量来节约成本自动重置+及时早停总结引子论文来自spinning up Key Papers in Deep RL的safety专题,也就是深度强化学习的安全方面。论文主要是讨论AI Safety这个话题的。这里的Safety倒不是科幻电影里的那种大危机,读过下面的第一篇文章就会明白,这里的safety更像是让agent在具有极度“风险厌恶”情况下进行决策。本文只做简单概述,并且文章顺原创 2022-05-04 20:08:21 · 1496 阅读 · 0 评论