强化学习:对DQN的理解

前置知识

1.Experience Replay:相当于一个仓库,用来存放一堆数据,每当数据增加数量达到某个值时,就随机从仓库里面抽取一定量的数据用于训练。这样可以避免过拟合。

2.DQN重有两个神经网络:Q网络和target网络。q网络实时进行权重更新,而target网络则在训练中保持不变,经过t步之后更新。保持不变是为了让训练过程中有个固定值,如果全部值都在变的话就比较难训练。

3.分发给Q网络和target网络的数据是同一组。

内容


Q网络:求现在状态S下最佳的Q值。
target网络:利用现在的状态S求下一状态S‘,再在S’的基础上,求最佳Q值。
损失loss:预测值(用Q网络求)和真实值(目标值,用Target网络求+r)的差

主要步骤

1.从Experience Replay中拿数据
在这里插入图片描述
2.在Q网络中,用S1来找到最大Q值,该Q值是q4。
在这里插入图片描述
3.在target网络中,用S2(S1的下一状态)来求最大Q值,该q值是q9。由于是未来的状态,所以要乘一定折扣率gramma,再加上回报r才能等于这一状态的目标。
在这里插入图片描述
4.计算损失值loss:用MSE函数在预测值q4和目标值r+q9之间求差。
在这里插入图片描述
在这里插入图片描述
本文参考了文献和一些网络中其他作者的解读。
文献标题:Reinforcement Learning Explained Visually (Part 5): Deep Q Networks, step-by-step

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值