DQN(Deep Q Network)论文笔记

1.简介

Deep Q Network 属于强化学习。本文是从《Playing Atari with Deep Reinforcement Learning》翻译总结的。

本模型包括卷积神经网络、Q-learning。输入是像素图,输出是价值函数,评价未来收益。使用随机梯度下降方法。

从深度学习视角考虑,强化学习面临三方面的挑战,一是需要大量的人工标识训练数据;二是大部分深度学习假定数据采样是独立性的,而强化学习却是面临很高的相关状态处理;深度学习假定数据固定分布的,而强化学习的数据分布在算法学到新的行为时会变化。

本模型尝试解决这几个问题。卷积神经网络可以不用大量人工标识训练数据。为了减少数据相关性和不满意的分布问题,使用了一个经验重演机制,它随机的从先前的转换中采样,从而基于许多过去的行为来平滑训练分布。

2.算法

在这里插入图片描述

3.效果

在游戏breakout、enduro、pong上,本模型胜过人类,在beam rider游戏中表现接近人类。但是在Q*bert、Seaquest、Space Invaders游戏上,远逊于人类,主要是因为这些游戏需要网络来寻找一种策略,可以延伸非常长的时间范围。
在这里插入图片描述
HNeat Best指采用了手工设计的物体检测算法,在Atari屏幕上输出位置和物体类别。

4.其他TD-gammon

本论文发现TD-gammon只在backgammon(西洋双陆棋)中表现较好,而在其他游戏中不行,也许是因为投骰子的随机性帮忙探索了状态空间,使得价值函数特别的平滑。

时序差(TD)学习是一种基于预测的机器学习方法。 它主要用于强化学习问题,被称为是“蒙特卡罗思想和动态规划(DP)思想的结合”。 TD类似于蒙特卡洛方法,因为它通过对环境进行取样来学习 一些策略;其与动态规划技术相关,因为它基于先前学习的预估(自助法的过程)对当前状态进行近似估计。 TD学习算法也与动物学习的时间差模型有关。

到了 1992 年,Gerald Tesauro 编写了 TD-Gammon,该程序采用了人工神经网络作为模型,并采用了 TD-lambda 算法进行训练。通过大量的自我博弈,TD-Gammon 达到了顶级人类的水平,而且正是这种没有人类玩家参与的训练方式,使得 TD-Gammon 的下棋方式不同于人类玩家。TD-Gammon 的意义不仅在于采用了强化学习进行训练,更是证明了不需要任何的特征工程,单纯使用棋子的位置作为神经网络的输入亦可训练出达到顶级人类玩家水平的智能体

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AI强仔

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值