Deep-Q-Network-DQN-的简单理解和几点Tips


最近看论文时了解了一个新的机器学习分支-Deep Q-learning Netwokr(DQN),所以自己上网查找整理了一些此算法的基本概念及其细节实现的tips.

一.什么是DQN?

首先看名字可以知道,DQN是将DEEP LEARNING 和Q-learning相结合,所以先来简单介绍一下这两者的概念.

1.Q-learning

Q学习作为强化学习的分支,继承了强化学习的模型。如下图:
image1
可以看出强化学习中存在一个基本的数值对(状态S,动作a),一开始环境处于S0状态,这时agent做出一个动作a0,环境受动作影响状态改变到S1并给agent一个反馈reward,告诉它你刚刚这个动作a0对我处于状态S0的影响是好是坏,相当于奖惩值,就这样不断循环直到事件结束.
Q学习算法中的Q(s,a)函数表示在状态s采取行动a并在之后采取最优动作策略的未来累计奖励(未来奖励是要打折扣的)。
而Q学习算法就是用贝尔曼公式不断的迭代更新Q函数,直到找到最优的策略。

2.深度学习中的神经网络

在上面的介绍中,可以看出Q学习需要使用表格来存储每一对(s,a)

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值