深度强化学习
文章平均质量分 65
深度强化学习
Serendipity-Wu
生活不仅眼前的枸杞 还有远方的人参
展开
-
多智能体强化学习与博弈论-博弈论基础4
本篇文章主要讲的是贝叶斯博弈(Bayesian Games,也称作不完全信息博弈)和拍卖理论。不完全信息博弈在我们生活中经常出现,比如拍卖,在市场和别人讨价还价等等。首先举一个贝叶斯博弈的简单例子假设两个人在决定接下来要做什么,B代表Ballet,F代表Football。player1不知道player2希望和他选择做一样的事情,还是希望避免和他做一样的事情,假设这两种情况的概率都是1/2。这时博弈就是一个不完全信息博弈。我们使用(B,(B,F))来表示这意味着玩家 1会选择B,当处于状态1时,参与人2也会原创 2022-06-21 20:00:30 · 725 阅读 · 0 评论 -
多智能体强化学习与博弈论-博弈论基础3
之前主要介绍了如何判断博弈中是否到达了纳什均衡,在这篇文章中将主要介绍如何计算纳什均衡。本文主要介绍下列几种情况下的纳什均衡两个智能体,每个智能体有两个动作两个智能体,每个智能体有多个动作,零和博弈非零和,每个智能体有多动作Minimax Theoram:For every two-person, zero-sum game with finitely many pure strategies, there exists a mixed strategy for each player and a valu原创 2022-06-19 10:35:09 · 1542 阅读 · 4 评论 -
多智能体强化学习与博弈论-博弈论基础2
之前我们介绍了一些单次博弈的例子,除了单次博弈外,重复博弈也是经常在我们生活中出现的。在重复博弈中智能体有机会在单次的博弈中占到对手的便宜,但是由于考虑到后来还有博弈,可能其它的智能体会采取对自己更为不利的策略,智能体为了有更好的长期收益,所以决定智能体策略的选择会更加复杂。在重复博弈的过程中不仅要考虑当前这次的博弈,还需要考虑以后的博弈收益。对于以后的博弈,需要给定一个折扣,距离现在的时间越长,折扣越大。折扣可以使用δt\delta^tδt来表示。在重复博弈中有很多的策略,其中的一种策略为。以重复的囚徒困原创 2022-06-17 19:32:19 · 1354 阅读 · 0 评论 -
多智能体强化学习与博弈论-博弈论基础
最近开始学习一些多智能体强化学习相关的内容,因此我打算写一些多智能体强化学习和博弈论相关的学习记录😃。这篇博客主要介绍博弈论的一些基础示例和基础知识。举个例子:假设有一门课程,你需要在准备期末考试和期末报告中做出选择(两部分权重相同)来最大化你的期末分数。你的同学也需要做出决定来最大化他的分数。两个人之间不能交流。准备考试在这个部分可以获得92分,不准备可以获得80分准备报告,加入你和你的同学都准备你们能在这部分获得100分,如果一个人准备了,你们获得92分,都不准备你们获得84分。我们可以得出这样的一个.原创 2022-06-12 18:49:55 · 1705 阅读 · 0 评论 -
强化学习之混合动作空间
在强化学习的动作空间设定中有连续动作空间,离散动作空间和混合动作空间。在大多数的论文中研究的都是连续动作空间和离散动作空间,而混合动作空间研究的比较少。在游戏ai,自动驾驶等一些领域中有时动作空间可以是混合动作空间,因此我阅读了一些相关的文献,资料和代码,计划整理一下混合动作空间中的一些基础知识(主要介绍parameterized action space)。考虑一个简单的场景,假设我们要写一个王者荣耀的游戏ai,我们需要控制英雄的走位,技能释放的方向,这些动作都是属于连续动作空间的。同时我们还需要选择不同原创 2022-06-07 15:43:07 · 6149 阅读 · 8 评论 -
SAC(Soft Actor Critic)学习记录
SAC(Soft Actor Critic)学习记录基本介绍SAC(Soft Actor Critic)算法在近年来受到了许多的关注,得到了不少深度强化学习研究者的好评。这篇文章主要包含的内容有SAC算法的理论分析和核心代码实现。与许多目的是最大化累计奖励的深度强化学习算法不同,SAC算法的目的是最大化最大化熵正则化的累积奖励,这样能够鼓励智能体有更多的探索,从而达到更好的训练效果。maxπθ[∑tγt(r(St,At)+αH(πθ(⋅∣St)))]{max}_{\pi_{\theta}}\lef原创 2022-04-05 11:55:02 · 3226 阅读 · 6 评论 -
Python多进程(multiprocessing)
内含Python多进程相关知识,包含multiprocessing,Queue具体代码示例和一些可能遇到的问题以及解决方案。原创 2022-03-27 22:13:32 · 2656 阅读 · 2 评论 -
(PPO)近端策略优化学习记录
包含了TRPO,PPO,重要性采样等知识。原创 2022-03-07 17:31:38 · 1095 阅读 · 0 评论 -
多智能体强化学习基础知识(入门级)
入门级多智能体强化学习基础知识。原创 2022-02-15 18:21:20 · 322 阅读 · 0 评论 -
带基线的策略梯度方法
包含了带基线的策略梯度方法,REINFORCE with baseline和A2C的简单介绍。原创 2022-02-15 18:19:05 · 238 阅读 · 0 评论 -
TD算法与价值学习高级技巧
王树森深度强化学习笔记,内含TD算法,和价值学习的一些高级技巧。原创 2022-02-10 17:51:12 · 231 阅读 · 0 评论 -
深度强化学习基础
王树森深度强化学习网课的笔记记录,包含了强化学习基本概念,简单的价值学习和策略学习介绍原创 2022-02-10 11:39:27 · 365 阅读 · 0 评论