论文阅读笔记 | 用深度强化学习玩Atari

这篇论文笔记介绍了如何使用深度强化学习(DQN)玩Atari游戏。通过卷积神经网络作为Q-function近似器,模型直接从原始像素输入学习控制策略。在多个游戏中,模型的表现优于先前方法,甚至在某些游戏中超越了人类专家。关键点包括经验回放缓冲区和ε-greedy策略来优化训练过程。
摘要由CSDN通过智能技术生成

论文阅读笔记 | 用深度强化学习玩Atari

1.Introduction

使用强化学习从高维感官输入直接学习控制策略的深度学习模型。该模型是一个卷积神经网络,使用Q-learning的变体进行训练,输入为原始像素,输出为估计未来报酬的值函数。将此方法应用于7个来自街机学习环境的游戏,没有调整架构或学习算法。在6个游戏上的表现超过了之前的所有方法,在3个游戏上也超过了人类专家。

2.Background

  • t时刻的观察量xt ∈ Rd :从模拟器获取当前帧图像的像素值向量

  • t时刻的奖励 rt:游戏分数的改变

  • t时刻的状态: 用序列st = x1, a1, x2, …, at−1, xt 来表示(仅从当前屏幕像素值不可能理解当前状态)

  • t时刻的未来折扣收益(future discounted return):
    T是结束时刻;γ是每个time-step的收益折扣
    其中:T是终结时刻的time-step;γ是每个time-step的收益折扣

  • 最优动作-价值函数:(在给定策略 π下,观察序列s并采取动作a的最大期望收益)
    在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值