DQN(Deep Q-learning)从入门到放弃笔记

本文介绍了DQN(Deep Q-learning)的基本概念,包括状态、动作、奖励、策略和价值函数,并提到了DeepMind和UC Berkeley的研究团队以及David Silver的增强学习课程。还概述了DQN系列的内容,从入门到深入探讨,包括DQN的改进和连续控制的NAF算法,以及用150行代码实现DQN解决CartPole问题。
摘要由CSDN通过智能技术生成

DQN中基本的概念:

  • A代表的是Agent的所有动作,a代表的是Agent的一个动作。

  • S代表的是Agent所能感知的世界的所有状态,s代表的是Agent的一个状态。

  • R是一个实数值,代表奖励或惩罚(Reward)。

  • π 代表的是状态State和动作Action存在的映射关系,即策略Policy。如果策略是随机的,policy是根据每个动作概率 π(a|s) 选择动作;如果策略是确定性的,policy则是直接根据状态s选择出动作 a=π(s)

stochastic Policy: π(a|s)=1
deterministic Policy: π(s):SA

  • 定义 Gt 为长期回报期望(Return):表示某个时刻t的状态将具备的回报

Gt=Rt+1+λRt+2+...=

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值