强化学习
文章平均质量分 63
BIT龙超越
这个作者很懒,什么都没留下…
展开
-
强化学习-深度蒙特卡洛算法(Deep Monte-Carlo)解决骰子游戏“吹牛”
深度蒙特卡洛算法是一种使用深度神经网络来进行蒙特卡洛估计的强化学习算法,它最早于2020年在《DouZero: Mastering DouDizhu with Self-Play Deep Reinforcement Learning》被提出用于解决斗地主问题。深度蒙特卡洛算法使用深度网络拟合每个时刻,智能体状态和采取每种动作的价值函数,即Q value,所以其属于value base 类方法。原创 2024-04-11 18:17:46 · 1430 阅读 · 2 评论 -
强化学习-MAPPO算法解析与实践-Multi Agent Proximal Policy Optimization
多智能体强化学习mappo算法实践,含pytorch代码原创 2024-04-26 14:51:19 · 3975 阅读 · 18 评论 -
论文复现-多目标强化学习-envelope MOQ-learning
这一部分就很明了了,计算前面提到的几种loss,给与不同权重后反向传播,唯一特别注意的是,actor loss中使用的优势adv,不知出于什么理由,使用了优势向量与偏好向量做内积后的偏好,(可能是因为解唯一,优化方便)虽然论文中用的是Q-learning的架构,但是在提供的代码中,采用的是A3C的架构,使用envelope 网络作为价值网络,估计状态价值用于更新,所以接下来以代码为准,结合论文思想,展示用到的输入、输出和损失函数。w的值均为正数,且和为1,每一位的值,代表对该维目标的偏好大小。原创 2023-10-18 15:48:33 · 3720 阅读 · 3 评论 -
错误处理-安装torch-cluster torch-sparse torch-scatter 等GPU版
比如我是 python37 cuda=11.6 pytorch 1.31.1。命令实例(python39 cuda11.7 torch1.13.1)最重要的是与pytorch,cuda,版本对应。先在这个网址找到你的pytorch gpu版本。再进去选择你的cu(cuda)版本,原创 2023-01-17 12:23:29 · 1527 阅读 · 0 评论 -
《SIMPLIFIED ACTION DECODER FOR DEEP MULTI-AGENT REINFORCEMENT LEARNING 》调研报告
近年来,人工智能领域取得了长足的发展。许多人工智能方法在围棋,Dota游戏,Atari游戏等领域都取得了接近甚至超越人类顶级玩家的水平。然而,这些游戏有一个共同点,那就是它们都是被设计成对抗类型的游戏。用博弈论的术语来说就是这些游戏都是零和博弈。但是,与游戏的虚拟世界不同的是,现实世界的成功往往需要不同人类个体的合作和交流。在最近几年,解决卡牌游戏Hanabi被公认为一个新的人工智能领域的挑战。它填补了人工智能在这一领域的空缺。卡牌游戏Hanabi和“思维理论”有着密切的关系——即需要人们高效的从动作推理出原创 2022-08-25 23:42:13 · 1365 阅读 · 0 评论 -
强化学习-PPO算法实现pendulum
代码都是学习别人的,但我分享几点我踩过的大坑。1.蒙特卡洛的V值2.样本不是独立同分布之后再 详述一下""""""import torch.nn.functional as Fimport torchvision.models as modelsimport retroimport hiddenlayer as hlimport torch# import retroimport pandas as pdimport numpy as np# import mujoco原创 2022-04-03 00:51:29 · 2269 阅读 · 1 评论 -
资源获取 -glove.6B.100d等获得方式
1.glove.6B.100d方法1:https://www.kaggle.com/danielwillgeorge/glove6b100dtxt到此处用谷歌 账户注册可免费下载方法2:评论区留下邮箱原创 2021-08-03 19:12:42 · 2423 阅读 · 15 评论 -
强化学习-DQN-ATARI2600-打砖块
import torchimport atari_pyimport pandas as pdimport numpy as npimport gymimport timeimport PIL.Image as Imageimport torch.nn as nnclass DQBReplayer: def __init__(self,capacity): self.memory = pd.DataFrame(index=range(capacity),column.原创 2021-10-14 00:03:33 · 1857 阅读 · 24 评论 -
强化学习—蒙特卡洛方法—21点游戏
import gymimport numpy as npimport matplotlib.pyplot as pltenv=gym.make("Blackjack-v0")observation=env.reset()print("观测={}".format(observation))while True: print("玩家={},庄家={},".format(env.player,env.dealer)) action = np.random.choice(env..原创 2021-08-10 23:27:49 · 1839 阅读 · 0 评论 -
强化学习-动态规划-杰克租车问题
例4.2:杰克管理一个全国性汽车出租公司的两个地点。每天一些顾客到这两个地点租车。如果有车可租,杰克就将车租出并从公司得到10美元的回扣。如果这个地点没车,杰克就失去了这笔生意。还回的车第二天就可以出租。为了使需要车的地点有车可租,每天晚上,杰克可以在两个地点间移动车辆,移动每辆车的费用是2美元。我们假设每个地点的车的需求量和归还量都是泊松分布变量。假设租车的期望值是3和4,还车的期望值是3和2。为了简化问题,我们假设每个地点的车不多于20辆(多于的车被还回公司,在此问题中消失了)并且一晚上最多移动原创 2021-07-09 22:23:48 · 2008 阅读 · 3 评论