论文阅读笔记 | 用深度强化学习玩Atari
1.Introduction
使用强化学习从高维感官输入直接学习控制策略的深度学习模型。该模型是一个卷积神经网络,使用Q-learning的变体进行训练,输入为原始像素,输出为估计未来报酬的值函数。将此方法应用于7个来自街机学习环境的游戏,没有调整架构或学习算法。在6个游戏上的表现超过了之前的所有方法,在3个游戏上也超过了人类专家。
2.Background
-
t时刻的观察量xt ∈ Rd :从模拟器获取当前帧图像的像素值向量
-
t时刻的奖励 rt:游戏分数的改变
-
t时刻的状态: 用序列st = x1, a1, x2, …, at−1, xt 来表示(仅从当前屏幕像素值不可能理解当前状态)
-
t时刻的未来折扣收益(future discounted return):
其中:T是终结时刻的time-step;γ是每个time-step的收益折扣 -
最优动作-价值函数:(在给定策略 π下,观察序列s并采取动作a的最大期望收益)