DQN中基本的概念:
A代表的是Agent的所有动作,a代表的是Agent的一个动作。
S代表的是Agent所能感知的世界的所有状态,s代表的是Agent的一个状态。
R是一个实数值,代表奖励或惩罚(Reward)。
π 代表的是状态State和动作Action存在的映射关系,即策略Policy。如果策略是随机的,policy是根据每个动作概率 π(a|s) 选择动作;如果策略是确定性的,policy则是直接根据状态s选择出动作 a=π(s) 。
stochastic Policy: ∑π(a|s)=1
deterministic Policy: π(s):S→A
- 定义 Gt 为长期回报期望(Return):表示某个时刻t的状态将具备的回报
Gt=Rt+1+λRt+2+...=∑