![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
学习
lls233
这个作者很懒,什么都没留下…
展开
-
torch 和torchvision 对应版本
torch& torchvision对应版本https://www.cnblogs.com/lyl0618/p/13323010.htmltorch torchvision python master/nightly master/nightly >=3.6 1.6.0 0.7.0 >=3.6 1.5.1 0.6.1 >=3.5 1.5.0 0.6.0 >=3.5 1....转载 2021-03-13 10:45:35 · 2032 阅读 · 0 评论 -
c++char* s作为函数形参并不能改变s
c++char* s作为函数形参并不能改变s今天写了一个c的代码 ,发现把char* s作为函数的参数传入,在函数中对s进行++,在主函数中s仍然是原来的值,没有改变。例子:#include<stdio.h>int fun(char *s){ int n = 0; for (; *s != '\0'; s++) { n++; } return n;}int main(){ char *s = "hgksjafhs"; printf("%s\n", s);原创 2020-09-23 20:40:14 · 1494 阅读 · 0 评论 -
model-based 强化学习分类
转载自:https://zhuanlan.zhihu.com/p/72642285model-based RL这个方向的工作可以根据environment model的用法分为三类:作为新的数据源:environment model 和 agent 交互产生数据,作为额外的训练数据源来补充算法的训练。增加决策的context信息:在进行Q值或者V值预估时,environment model ...转载 2020-03-03 10:03:18 · 287 阅读 · 0 评论 -
Continuous Deep Q-Learning with Model-based Acceleration
摘要首先介绍了无模型的强化学习方法发展:已经解决了一系列具有挑战性的问题,并且最近开始解决大型神经网络策略和价值函数。然而,无模型算法由于采样复杂性,特别是用高维函数估计时,被限制在了物理系统中。在这篇文章中,我们探索并提出了一种算法来降低深度强化学习中连续控制任务的样本复杂度。我们提出了两个互补的技术来提高算法效率。首先,改进了q-learning使它用在连续问题上,算法叫NAF,来替换平...原创 2019-11-18 22:09:20 · 803 阅读 · 0 评论 -
pytorch中的dropout的概率p
最近需要训练一个模型,在优化模型时用了dropout函数,为了减少过拟合。训练的时候用dropout,测试的时候不用dropout。刚开始以为p是保留神经元的比率,训练设置0.5,测试设置1,loss根本没减小过,全设置成1也是一样的效果,后来就考虑到是不是p设置错了。上网一搜,果然是的!!!p的含义理解错了!不是保留的,而是不保留的!具体的代码为: x2 = F.drop...原创 2019-11-18 09:58:07 · 3713 阅读 · 0 评论 -
THE DIFFERENTIABLE CROSS-ENTROPY METHOD
这篇文章主要是对CEM(Cross-Entropy Method)做了改进,用目标函数的参数使cem的结果可微。应用于非凸连续控制问题。简介DCEM通过把动作序列embed成低维空间从而减少计算量和memory。主要是通过模型部分将可微策略参数化。使用PPO对基于模型的项目组件进行微调,证明在基于模型的强化学习上,除了用最大似然来拟合observation,用标准策略学习也是可行的。...原创 2019-11-08 18:43:04 · 229 阅读 · 0 评论 -
tensorflow在代码不同位置调用神经网络想要共享权重
一个简单的代码:cnn网络定义了四个卷积层,权重为随机初始化的权重,输入为随机的(50,64,64,3)的向量x1,x2的输出都调用了cnn这个函数import tensorflow as tfdef cnn(hidden): kwargs = dict(strides=2, activation=tf.nn.relu) hidden = tf.layers.conv2d...原创 2019-09-27 20:34:59 · 1601 阅读 · 0 评论 -
saver = tf.train.Saver(max_to_keep=None) 保存全部已训练模型
通常用到saver保存模型,一般不加参数。saver = tf.train.Saver()昨天看到已经训好的模型出现在列表中,过几小时就消失了,感到很惊讶。后来在网上一搜,发现saver = tf.train.Saver()的默认参数max_to_keep表示保存最近的几个模型,设置为None或者0 就是保存全部的模型。keep_checkpoint_every_n_hours,每几小...原创 2019-10-10 09:15:30 · 3528 阅读 · 1 评论 -
lstm 前后两次调用权重一样
import tensorflow as tfimport numpy as np# 创建输入数据cell = tf.contrib.rnn.BasicLSTMCell(num_units=4, state_is_tuple=True)X = tf.placeholder(tf.float32,(2,10,8))X_lengths = tf.placeholder(tf.float3...原创 2019-10-08 16:01:26 · 619 阅读 · 0 评论 -
LSTM 变长
input为[2,10,8]的数组batch = 2steps = 10为了变长 设置第二个batch的长度为6import tensorflow as tfimport numpy as np# 创建输入数据cell = tf.contrib.rnn.BasicLSTMCell(num_units=4, state_is_tuple=True)X = tf.placehold...原创 2019-10-08 11:15:44 · 412 阅读 · 0 评论