【深度强化学习】深度Q网络DQN

[深度强化学习]DQN

DQN是将深度学习和强化学习结合起来而实现从感知到动作的端对端的全新算法。
深度Q学习的核心就是用一个人工神经网络q ( s , a ; θ ) , s ∈ S , a ∈ A来代替动作价值函数。

DQN的算法流程:

在这里插入图片描述
Q-leaning和DQN的区别
在这里插入图片描述
与Q-Learning相比,DQN主要改进在以下三个方面:
(1)DQN利用深度卷积网络(Convolutional Neural Networks,CNN)来逼近值函数;
(2)DQN利用经验回放训练强化学习的学习过程;
(3)DQN独立设置了目标网络来单独处理时序差分中的偏差。

  • 经验回放(experience replay):将经验(即历史的状态、动作、奖励等)存储起来,再在存储的经验中按一定的规则采样。
  • 目标网络(target network):修改网络的更新方式,例如不把刚学习到的网络权重马上用于后续的自益过程。
  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值