![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
强化学习
爱学习的阿强
这个作者很懒,什么都没留下…
展开
-
模仿学习对比强化学习
模仿学习介绍模仿学习是将专家经验作为样本进行强监督学习的一种方法。模仿学习对比强化学系模仿学习优点:1.简单、稳定的监督学习过程缺点:1.需要提供榜样行为数据2.需要处理多解型行为(例如 绕过障碍物,可以从左边或者右边,但是专家数据不一定覆盖所有行为,可以用多元高斯分布去等方法去处理)3.不能超越人类水平强化学习优点:1.可以超越人类水平缺点:1.需要设置奖励函数2.必须解决策略探索性问题3.训练可能不收敛、不稳定结合模仿学习和强化学习:Pretrain&Finetune原创 2022-05-12 15:34:29 · 1399 阅读 · 0 评论 -
pycharm连接AutoDL
1.首先要下一个专业版的pycharm并且要激活:【pycharm2021.3专业版安装激活教程,逐步讲解,巨详细】2.配置远程环境AutoDL官网帮助文档如果代码无法上传或者无法运行远程的代码,检查映射地址是否正确。同步代码更改可以这样,第二张图选择全部同步,然后刷新打开远程终端打开远程文件目录...原创 2022-05-01 22:37:04 · 1792 阅读 · 0 评论 -
python 熵
Python_熵计算实现熵的理解_简单例子分析转载 2022-04-13 17:54:11 · 616 阅读 · 0 评论 -
DDPG算法与输出边界值问题
【强化学习】DDPG 算法实现案例DDPG或TD3算法训练时总是输出边界值问题记录强化学习调参技巧一: DDPG算法训练动作选择边界值_分析解决sigmoid函数原理及饱和后梯度消失的问题输出边界值最基本的解决办法有批标准化(model里面加入BN层),输入归一化。实在不行换算法。如何选择深度强化学习算法?MuZero/SAC/PPO/TD3/DDPG/DQN/等(2021-04)...转载 2022-04-08 18:52:33 · 1106 阅读 · 0 评论 -
pytorch 批标准化
https://blog.csdn.net/qq_37388085/article/details/104777856?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522164734212616780265479995%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fall.%2522%257D&request_id=164734212616780265479995&am转载 2022-03-28 20:21:21 · 208 阅读 · 0 评论 -
pytroch取张量数据
print('1111',loss)print('2222',loss.data)#tensor且GPUprint('3333',loss.cpu())print('4444',loss.cpu().data)#tensor且CPU# print('5555',loss.cpu().data[0])#报错 IndexError: invalid index of a 0-dim tensor. Use tensor.item() to convert a 0-dim tensor to a Pyth原创 2022-03-16 16:23:52 · 2092 阅读 · 0 评论 -
数据标准化
https://www.cnblogs.com/pejsidney/p/8031250.htmlhttps://blog.csdn.net/weixin_38706928/article/details/80329563转载 2022-03-06 19:28:24 · 81 阅读 · 0 评论 -
Gym跑CarRacing环境报Box2d的错误
之前想用CarRacing做强化学习训练,报了Box2的错误,pip install box2d又一堆Error,这是因为我用的系统是windows的不能直接pip install。具体方法如下:1.先去安装swig2.然后下载wheel参考文章1参考文章2原创 2022-02-16 22:58:18 · 1439 阅读 · 0 评论 -
机器学习损失函数
最小二乘法期望和实际值的方差作为损失函数,1/2是为了方便求导。实际值又是通过权重W和偏置项b来确定,所以我们可以对它训练。极大似然估计我们以抛硬币为例,左边的是我们假设的概率模型,右边是真实世界的实验结果。c1,c2,c3…c10是该情况发生的概率,西塔是给定的概率模型。我们计算上述三种情况得到的概率,如下图所示我们发现第二种模型,概率最大。这些我们假设模型计算的结果叫做似然值,而最大的似然值就是最大似然值。我们就可以认为最大似然值的概率模型越能描述现实世界。如何训练呢?其中概率依赖于W和原创 2022-01-15 16:46:36 · 815 阅读 · 0 评论 -
线性模型和非线性模型
区别:看公式里面参数,一个变量x只被一个参数w影响就是线性,否则是非线性。https://www.cnblogs.com/toone/p/8574294.html转载 2022-01-11 21:14:22 · 232 阅读 · 0 评论 -
准确率和loss的关系
https://blog.csdn.net/u014421797/article/details/104689384?spm=1001.2101.3001.6661.1&utm_medium=distribute.pc_relevant_t0.none-task-blog-2%7Edefault%7ECTRLIST%7Edefault-1.no_search_link&depth_1-utm_source=distribute.pc_relevant_t0.none-task-blog-2%转载 2022-01-11 21:08:49 · 1069 阅读 · 0 评论 -
回归任务和分类任务的区别
https://blog.csdn.net/qq_24224067/article/details/103634608转载 2022-01-11 21:00:34 · 1802 阅读 · 0 评论 -
Pytorch 的 torch.utils.data.DataLoader 参数详解
DataLoader是PyTorch中的一种数据类型,它定义了如何读取数据方式。1、dataset:(数据类型 dataset)输入的数据类型。看名字感觉就像是数据库,C#里面也有dataset类,理论上应该还有下一级的datatable。这应当是原始数据的输入。PyTorch内也有这种数据结构。这里先不管,估计和C#的类似,这里只需要知道是输入数据类型是dataset就可以了。2、batch_size:(数据类型 int)每次输入数据的行数,默认为1。PyTorch训练模型时调用数据不是一行一行进原创 2022-01-11 20:51:22 · 1851 阅读 · 0 评论 -
win10安装gym时遇到的问题
进入conda环境,安装gympip install gympip install gym[atari]pip install pyglet1. no atribute “xxxx”的错误是因为文件命名问题,文件名不可以和import的包名重复,比如gym.py 和 import gym。文件名与包同名,包会被文件名屏蔽,导致无法导入。python中导入单个文件和导入包是同样import。2.OSError: [WinError 126] 找不到指定的模块 (ale_c.dll)文件夹里原创 2022-01-03 21:30:29 · 328 阅读 · 0 评论