深度学习
文章平均质量分 54
BIT龙超越
这个作者很懒,什么都没留下…
展开
-
强化学习-深度蒙特卡洛算法(Deep Monte-Carlo)解决骰子游戏“吹牛”
深度蒙特卡洛算法是一种使用深度神经网络来进行蒙特卡洛估计的强化学习算法,它最早于2020年在《DouZero: Mastering DouDizhu with Self-Play Deep Reinforcement Learning》被提出用于解决斗地主问题。深度蒙特卡洛算法使用深度网络拟合每个时刻,智能体状态和采取每种动作的价值函数,即Q value,所以其属于value base 类方法。原创 2024-04-11 18:17:46 · 1532 阅读 · 3 评论 -
强化学习-MAPPO算法解析与实践-Multi Agent Proximal Policy Optimization
多智能体强化学习mappo算法实践,含pytorch代码原创 2024-04-26 14:51:19 · 4628 阅读 · 19 评论 -
论文复现-多目标强化学习-envelope MOQ-learning
这一部分就很明了了,计算前面提到的几种loss,给与不同权重后反向传播,唯一特别注意的是,actor loss中使用的优势adv,不知出于什么理由,使用了优势向量与偏好向量做内积后的偏好,(可能是因为解唯一,优化方便)虽然论文中用的是Q-learning的架构,但是在提供的代码中,采用的是A3C的架构,使用envelope 网络作为价值网络,估计状态价值用于更新,所以接下来以代码为准,结合论文思想,展示用到的输入、输出和损失函数。w的值均为正数,且和为1,每一位的值,代表对该维目标的偏好大小。原创 2023-10-18 15:48:33 · 4081 阅读 · 4 评论 -
错误处理-安装torch-cluster torch-sparse torch-scatter 等GPU版
比如我是 python37 cuda=11.6 pytorch 1.31.1。命令实例(python39 cuda11.7 torch1.13.1)最重要的是与pytorch,cuda,版本对应。先在这个网址找到你的pytorch gpu版本。再进去选择你的cu(cuda)版本,原创 2023-01-17 12:23:29 · 1570 阅读 · 0 评论 -
安装pytorch 1.13.0 gpu版本
pip3 install torch==1.13.0 torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu116如果不强调==1.13.0的话会导致下载很多不同版本torch最终导致空间不足一安装如下 Downloading https://download.pytorch.org/whl/cu116/torch-1.13.0%2Bcu116-cp37-cp37m-win_amd64.whl (2436.6原创 2022-12-30 10:11:48 · 3204 阅读 · 0 评论 -
《SIMPLIFIED ACTION DECODER FOR DEEP MULTI-AGENT REINFORCEMENT LEARNING 》调研报告
近年来,人工智能领域取得了长足的发展。许多人工智能方法在围棋,Dota游戏,Atari游戏等领域都取得了接近甚至超越人类顶级玩家的水平。然而,这些游戏有一个共同点,那就是它们都是被设计成对抗类型的游戏。用博弈论的术语来说就是这些游戏都是零和博弈。但是,与游戏的虚拟世界不同的是,现实世界的成功往往需要不同人类个体的合作和交流。在最近几年,解决卡牌游戏Hanabi被公认为一个新的人工智能领域的挑战。它填补了人工智能在这一领域的空缺。卡牌游戏Hanabi和“思维理论”有着密切的关系——即需要人们高效的从动作推理出原创 2022-08-25 23:42:13 · 1372 阅读 · 0 评论 -
深度学习-自然语言处理-文本生成
从一个含有酒店信息的excel文件生成酒店评价文字。seq2seq方法。运用的是lstm+attentionimport csvimport tqdmimport timeimport pandas as pdimport torchfrom torch.utils.data import Datasetimport torchimport torch.nn as nnimport torch.optim as optimimport torch.nn.functional as原创 2022-05-27 21:19:36 · 1222 阅读 · 1 评论 -
机器学习-天池数据下载
方法:1.wget ‘网址’网址在这里找,动作讲究一个快准狠,慢了链接就失效了原创 2022-05-21 17:21:10 · 1010 阅读 · 0 评论 -
错误处理-mmdetection-AttributeError: ‘ConfigDict‘ object has no attribute ‘log_level‘
第一次用商汤的mmdetection,遇到很多错误mmdetection中网络的配置文件缺东西,至少缺了log_level参数的值原创 2022-05-20 23:44:08 · 3929 阅读 · 10 评论 -
错误处理--CUDA error: device-side assert triggered(很有效)
点进来的朋友你好啊,先别说,让我猜猜,你是不是正在写一个NLP模型?它是不是有lstm,或者transformer,或者textcnn?哈哈是不是猜中啦。你现在一定很着急,看了各种博客,说是下标越界~,可是找来找去,真的找不出哪里出界了?打印出来各个都在标签限制内呢?别着急,我相信看了我的博客有很大概率可以解决你的难题。那就是————————————————————你的embeding中词的总数设小啦!在函数 nn.Embedding(vocab_size, embedding_dim原创 2022-04-09 00:23:14 · 4500 阅读 · 1 评论 -
机器学习-华为mindspore入门-波士顿房价回归
老师要用mindspore 做作业,可真是难为我了。。。。折腾了好久才算上手,感谢李老师给我一个这么充实的清明假期。。。。。主要代码还是参考官网教程。简单线性函数拟合 — MindSpore master documentation就算华为的框架有一千个不好用,它中文的入门教程绝对比pytorch的好读懂的多,这是我喜欢他的一点。"""Linear Regression TutorialThis sample code is applicable to CPU, GPU and Asce原创 2022-04-05 07:43:03 · 2352 阅读 · 0 评论 -
强化学习-PPO算法实现pendulum
代码都是学习别人的,但我分享几点我踩过的大坑。1.蒙特卡洛的V值2.样本不是独立同分布之后再 详述一下""""""import torch.nn.functional as Fimport torchvision.models as modelsimport retroimport hiddenlayer as hlimport torch# import retroimport pandas as pdimport numpy as np# import mujoco原创 2022-04-03 00:51:29 · 2304 阅读 · 1 评论 -
强化学习-DQN-ATARI2600-打砖块
import torchimport atari_pyimport pandas as pdimport numpy as npimport gymimport timeimport PIL.Image as Imageimport torch.nn as nnclass DQBReplayer: def __init__(self,capacity): self.memory = pd.DataFrame(index=range(capacity),column.原创 2021-10-14 00:03:33 · 1900 阅读 · 24 评论 -
资源获取 -glove.6B.100d等获得方式
1.glove.6B.100d方法1:https://www.kaggle.com/danielwillgeorge/glove6b100dtxt到此处用谷歌 账户注册可免费下载方法2:评论区留下邮箱原创 2021-08-03 19:12:42 · 2441 阅读 · 15 评论 -
pytorch使用笔记
1.torch.max() torch.max(input,0/1) 其中input是一个tensor,返回两个tensor,如果第二个参数是零,返回每行最大值和所在列数,反之对应a = torch.tensor([[1,5,62,54], [2,6,2,6], [2,65,2,6]])x=torch.max(a,1)y=torch.max(a,0)print(x)print(y)...原创 2021-07-25 22:15:59 · 819 阅读 · 0 评论