paper 1:Playing Atari with Deep Reinforcement Learning


本来打算把这篇文献翻译一下,然后再把自己的理解和问题写出来,但是百度一下,会发现有许多翻译,所以便把翻译的念头打消了,就写一下自己看这篇文献的收获和目前自己还存在的问题(以后把这些问题有解决的,会同步在这里更新的)。
想看文献翻译的,推荐下面这个链接: link.

一、新收获

1、对文章段落的理解和收获

abstract

文章首次提出了一种可以成功学习到控制策略的深度学习模型,这种模型的输入直接来自于高维的使用强化学习的感官输入。模型是用Q-learning的一种变种方法训练的卷积神经网络,模型的输入是原始像素,输出是用来估计未来奖励的value function。

(1)、introduction

指出研究的现状,强化学习中一直存在的挑战:学会直接从高维的感官输入(比如视觉、语音)去控制智能体是强化学习长期存在的挑战。大部分成功应用强化学习的的例子都是依赖于人工提取特征。
这时深度学习已经可以直接从原始发感官数据提取高维特征,使得在计算机视觉和语音识别上有了很大的突破。所以考虑把强化学习和深度学习进行结合,但是存在以下一些困难:
(1)深度学习要求大量的有人工标签的训练数据,然而强化学习算法又必须从奖励(通常是稀疏的、有噪音的、有延迟的)这个标量中进行学习。
(2)深度学习要求抽样的数据是相互独立的,但是强化学习是高度相关的状态序列。
(3)强化学习中当算法采取新的行为的时候,数据会发生改变,而深度学习的数据是一个固定的分布。
--------卷积神经网络可以克服这些困难。

(3)、related work

TD-gammon是首次把强化学习和深度学习结合一起使用的,用于训练backgammon这种游戏。他们使用的是类似于Q-learning的无模型的强化学习算法,用只有一个隐藏层的多层感知器估计value function。
但是将TD-gammon这种训练方法用于chess,Go,和checkers这些游戏都没有成功,人们就人认为TD-gammon提出的这种方法只试用于backgammon这个游戏。
后来人们发现,将无模型的强化学习算法与非线性函数逼近器或者与off policy学习结合试用会造成Q网络发散不收敛,而将无模型的学习算法与线性函数逼近器结合可以保证收敛。

在以前的工作中,与本文算法相似的是neural fitted Q-learning:将深度学习与强化学习分开进行,先进行深度自动解码去学习低纬度的任务,然后将NFQ这种算法应用到这种画像。
本文提出的算法是端到端的,神经网络的输入直接来自于视觉输入,让神经网络自己去提取特征。

(4)、deep reinforcement learning

区别于TD-gammon和online approach,本文提出一种experience replay新技术,将智能体之前走过的每一步et=(st,at,rt,st+1)都保存到数据集D中,当使用这些数据的时候,如果把这些历史数据的任意长度都输入到神经网络中有点苦难,所以这个时候提出了一个用来固定数据长度的函数。
采用experience replay新技术有以下优点:
(1)每一步的经验可以被用在多个权重更新中,这提高了数据效率。
(2)随机从experience replay中抽样,打破了数据之间的相关性。
(3)使用on-policy容易陷入局部最优甚至不收敛,使用experience replay之后,可以避免参数不收敛的现象。
但是也存在一个缺点,在存储的数据集中,每组经验被抽取到的概率都是一样的,这样会导致重要的transition不能有更大的机会被抽取到。

(4.1) preprocessing and model architecture

直接使用原始像素(210160,每个都有128种颜色),在计算方面会带来很大的苦难,所以先进行预处理变成8484的灰色image。
神经网络的输入有两种方法:
(1)输入状态s和动作a,这样每换一个动作,都要从神经网络forward一次,如果动作很多的haunted会有很大的代价。
(2)只输入状态s,这样只需forward一次神经网络就可以了。
所以采用了第二种方法。
然后就是神经网络结构的介绍,由于目前的能力有限,只能等重新更新了。

(5)、experience

这部分讲具体的试验过程及结果。
将这种算法应用到7个试验当中,只有奖励函数进行了限制,其余的神经网络的结构什么的都没有改变,7个全部一样。奖励函数被改为只有-1,0,1这三个,这种改变有以下几点好处:
(1)可以限制误差倒数的范围。
(2)在多个游戏当中使用相同 的学习效率。
(3)这样智能体不会由于不能区分不同等级的奖励而影响智能体的学习情况。

(6)、conclusion

state-of-the-art:最先进的

2、问题与解答

问题1:什么是end-to-end 的训练方式?
解答:端到端的训练方式,就是说没有人工提取状态特征的过程,将游戏界面的原始像素直接做为神经网络的输入,让神经网络自己去提取状态特征。

问题2:通过Q-Learning如何使用reward来构造标签,进行深度学习?
解答:将利用 reward计算的目标Q值作为标签,当Q值无限接近于目标Q值时,我们的目的就达到了。

二、问题残留–待解决

1、强化学习中的online,offline,on-policy,off-policy是什么意思,有什么区别?

在看上面翻译的时候,发现评论区说online与on-policy不一样,然后我就有点蒙了,应该是自己之前在理解方面存在错误,还重新把这个知识点尽心理解。

2、卷积神经网络的参数啥的还没有弄明白。

DQN使用了神经网络进行训练,神经网络由两层卷积层和两层全连接层构成,但是读到文章中关节模型结构的时候,发现有些参数不记得了,所以还得再把CNN、RNN等内容重新进行学习!

发现自己脑袋好不管用啊,之前学过的东西,一段时间不用,就忘记了一大半了,这样的学习效率很低啊!大家有什么学习建议,也欢迎留言评论,我在这先谢过啦!!!

三、结束

以上内容如果哪里有不对的地方,欢迎留言指出,提建议!
十分感谢您的观看,谢谢!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值