DQN(Deep Q Network)论文笔记

最新推荐文章于 2024-06-27 15:06:18 发布

AI强仔

最新推荐文章于 2024-06-27 15:06:18 发布

阅读量1.3k

点赞数 2

分类专栏：强化学习人工智能

本文链接：https://blog.csdn.net/zephyr_wang/article/details/105020325

版权

人工智能同时被 2 个专栏收录

150 篇文章 20 订阅

订阅专栏

强化学习

2 篇文章 0 订阅

订阅专栏

1.简介

Deep Q Network 属于强化学习。本文是从《Playing Atari with Deep Reinforcement Learning》翻译总结的。

本模型包括卷积神经网络、Q-learning。输入是像素图，输出是价值函数，评价未来收益。使用随机梯度下降方法。

从深度学习视角考虑，强化学习面临三方面的挑战，一是需要大量的人工标识训练数据；二是大部分深度学习假定数据采样是独立性的，而强化学习却是面临很高的相关状态处理；深度学习假定数据固定分布的，而强化学习的数据分布在算法学到新的行为时会变化。

本模型尝试解决这几个问题。卷积神经网络可以不用大量人工标识训练数据。为了减少数据相关性和不满意的分布问题，使用了一个经验重演机制，它随机的从先前的转换中采样，从而基于许多过去的行为来平滑训练分布。

2.算法

在这里插入图片描述

3.效果

在游戏breakout、enduro、pong上，本模型胜过人类，在beam rider游戏中表现接近人类。但是在Q*bert、Seaquest、Space Invaders游戏上，远逊于人类，主要是因为这些游戏需要网络来寻找一种策略，可以延伸非常长的时间范围。
在这里插入图片描述
HNeat Best指采用了手工设计的物体检测算法，在Atari屏幕上输出位置和物体类别。

4.其他TD-gammon

本论文发现TD-gammon只在backgammon（西洋双陆棋）中表现较好，而在其他游戏中不行，也许是因为投骰子的随机性帮忙探索了状态空间，使得价值函数特别的平滑。

时序差（TD）学习是一种基于预测的机器学习方法。它主要用于强化学习问题，被称为是“蒙特卡罗思想和动态规划（DP）思想的结合”。 TD类似于蒙特卡洛方法，因为它通过对环境进行取样来学习一些策略；其与动态规划技术相关，因为它基于先前学习的预估（自助法的过程）对当前状态进行近似估计。 TD学习算法也与动物学习的时间差模型有关。

到了 1992 年，Gerald Tesauro 编写了 TD-Gammon，该程序采用了人工神经网络作为模型，并采用了 TD-lambda 算法进行训练。通过大量的自我博弈，TD-Gammon 达到了顶级人类的水平，而且正是这种没有人类玩家参与的训练方式，使得 TD-Gammon 的下棋方式不同于人类玩家。TD-Gammon 的意义不仅在于采用了强化学习进行训练，更是证明了不需要任何的特征工程，单纯使用棋子的位置作为神经网络的输入亦可训练出达到顶级人类玩家水平的智能体

在这里插入图片描述