paper 1：Playing Atari with Deep Reinforcement Learning

最新推荐文章于 2024-09-18 22:37:32 发布

weixin_45650561

最新推荐文章于 2024-09-18 22:37:32 发布

阅读量93

点赞数

分类专栏：论文强化学习文章标签：深度学习强化学习

本文链接：https://blog.csdn.net/weixin_45650561/article/details/107614730

版权

强化学习同时被 2 个专栏收录

13 篇文章 1 订阅

订阅专栏

论文

5 篇文章 0 订阅

订阅专栏

Playing Atari with Deep Reinforcement Learning

一、新收获
二、问题残留--待解决
- 1、强化学习中的online，offline，on-policy，off-policy是什么意思，有什么区别？
- 2、卷积神经网络的参数啥的还没有弄明白。
三、结束

本来打算把这篇文献翻译一下，然后再把自己的理解和问题写出来，但是百度一下，会发现有许多翻译，所以便把翻译的念头打消了，就写一下自己看这篇文献的收获和目前自己还存在的问题（以后把这些问题有解决的，会同步在这里更新的）。
想看文献翻译的，推荐下面这个链接： link.

一、新收获

1、对文章段落的理解和收获

abstract

文章首次提出了一种可以成功学习到控制策略的深度学习模型，这种模型的输入直接来自于高维的使用强化学习的感官输入。模型是用Q-learning的一种变种方法训练的卷积神经网络，模型的输入是原始像素，输出是用来估计未来奖励的value function。

(1)、introduction

指出研究的现状，强化学习中一直存在的挑战：学会直接从高维的感官输入（比如视觉、语音）去控制智能体是强化学习长期存在的挑战。大部分成功应用强化学习的的例子都是依赖于人工提取特征。
这时深度学习已经可以直接从原始发感官数据提取高维特征，使得在计算机视觉和语音识别上有了很大的突破。所以考虑把强化学习和深度学习进行结合，但是存在以下一些困难：
（1）深度学习要求大量的有人工标签的训练数据，然而强化学习算法又必须从奖励（通常是稀疏的、有噪音的、有延迟的）这个标量中进行学习。
（2）深度学习要求抽样的数据是相互独立的，但是强化学习是高度相关的状态序列。
（3）强化学习中当算法采取新的行为的时候，数据会发生改变，而深度学习的数据是一个固定的分布。
--------卷积神经网络可以克服这些困难。

(3)、related work

TD-gammon是首次把强化学习和深度学习结合一起使用的，用于训练backgammon这种游戏。他们使用的是类似于Q-learning的无模型的强化学习算法，用只有一个隐藏层的多层感知器估计value function。
但是将TD-gammon这种训练方法用于chess，Go，和checkers这些游戏都没有成功，人们就人认为TD-gammon提出的这种方法只试用于backgammon这个游戏。
后来人们发现，将无模型的强化学习算法与非线性函数逼近器或者与off policy学习结合试用会造成Q网络发散不收敛，而将无模型的学习算法与线性函数逼近器结合可以保证收敛。

在以前的工作中，与本文算法相似的是neural fitted Q-learning：将深度学习与强化学习分开进行，先进行深度自动解码去学习低纬度的任务，然后将NFQ这种算法应用到这种画像。
本文提出的算法是端到端的，神经网络的输入直接来自于视觉输入，让神经网络自己去提取特征。

(4)、deep reinforcement learning

区别于TD-gammon和online approach，本文提出一种experience replay新技术，将智能体之前走过的每一步et=（st,at,rt,st+1）都保存到数据集D中，当使用这些数据的时候，如果把这些历史数据的任意长度都输入到神经网络中有点苦难，所以这个时候提出了一个用来固定数据长度的函数。
采用experience replay新技术有以下优点：
（1）每一步的经验可以被用在多个权重更新中，这提高了数据效率。
（2）随机从experience replay中抽样，打破了数据之间的相关性。
（3）使用on-policy容易陷入局部最优甚至不收敛，使用experience replay之后，可以避免参数不收敛的现象。
但是也存在一个缺点，在存储的数据集中，每组经验被抽取到的概率都是一样的，这样会导致重要的transition不能有更大的机会被抽取到。

(4.1) preprocessing and model architecture

直接使用原始像素（210160，每个都有128种颜色），在计算方面会带来很大的苦难，所以先进行预处理变成8484的灰色image。
神经网络的输入有两种方法：
（1）输入状态s和动作a，这样每换一个动作，都要从神经网络forward一次，如果动作很多的haunted会有很大的代价。
（2）只输入状态s，这样只需forward一次神经网络就可以了。
所以采用了第二种方法。
然后就是神经网络结构的介绍，由于目前的能力有限，只能等重新更新了。

(5)、experience

这部分讲具体的试验过程及结果。
将这种算法应用到7个试验当中，只有奖励函数进行了限制，其余的神经网络的结构什么的都没有改变，7个全部一样。奖励函数被改为只有-1,0,1这三个，这种改变有以下几点好处：
（1）可以限制误差倒数的范围。
（2）在多个游戏当中使用相同的学习效率。
（3）这样智能体不会由于不能区分不同等级的奖励而影响智能体的学习情况。