强化学习
华zyh
这个作者很懒,什么都没留下…
展开
-
PyTorch中tensor赋值运算符
t = torch.ones((3,3))t0 = tt1 = t.dataprint(id(t),id(t0),id(t1),id(t.data))运行结果:2132926456040 2132926456040 2133276319640 2132924110392t0与t完全相同。但是,t1与t.data地址不一样(t1.data与t0.data地址相同)原创 2021-11-18 23:05:00 · 1647 阅读 · 0 评论 -
a leaf Variable that requires grad is being used in an in-place operation
计算图中的叶子节点不能直接进行内置运算,防止影响计算图的反向传播运算。如果非要改变叶子节点data的值,可以直接对data属性调用内置运算,这样不会记录在计算图当中,或者使用detach()方法,因为返回的tensor共享data。...原创 2021-11-18 22:11:08 · 2072 阅读 · 0 评论 -
PyTorch中detach()方法和detach_方法区别
import torcht0 = torch.ones((10))t1 = t0.detach()print(id(t0),id(t1))print(id(t0.data) , id(t1.data))运行结果:1879016743744 18790167438081879016743936 1879016743936detach()方法是重新建一个tensort1,不过t1和t0的data和grad是共用的。t0 = torch.ones((10))t1 = t0.deta原创 2021-11-18 21:36:15 · 1451 阅读 · 0 评论 -
DQN和DoubleDQN的异同
DQN和DoubleDQN最大的不同在于:Q现实的计算方法。DQN的Q现实计算方法:直接将新的状态输入老的神经网络,返回最大的Q值DoubleDQN的Q现实计算方法为了防止overestimating利用了新的神经网络将新的状态输入新的神将网络,得到Q最大值的action,将此action作为旧的神经网络选择Q值的纵坐标。...原创 2021-10-27 11:22:24 · 1446 阅读 · 2 评论 -
强化学习Q-Learing算法
Epsilon greedy 是用在决策上的一种策略, 比如 epsilon = 0.9 时, 就说明有90% 的情况我会按照 Q 表的最优值选择行为, 10% 的时间使用随机选行为. alpha是学习率, 来决定这次的误差有多少是要被学习的, alpha是一个小于1 的数. gamma 是对未来 reward 的衰减值,r代表奖励。...原创 2021-10-19 14:03:04 · 184 阅读 · 0 评论