![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
深度强化学习
zhaoying9105
这个作者很懒,什么都没留下…
展开
-
深度强化学习中的DQN系列算法
DQN是考虑到维度灾难,在q-learning算法的价值函数近似Value Function Approximation基础上修改的。主要是对Q(s,a,w)进行修改,s可能是非常大的,比如输入一个图像,a可能是很小的,比如玩游戏时候几个操作键。这种情况下引入神经网络,可以把Q(s,a,w)变成a = Q(s,w),输出的是a大小的向量,每个元素表示每个动作a下的Q(s,a)值。原创 2017-06-20 11:11:24 · 3723 阅读 · 0 评论 -
深度强化学习中DDPG算法
深度强化学习总的来说都是以强化学习为骨架,用神经网络代替耗内存很高的组件,加速计算。DDPG算法是的Actor-Critic算法和神经网络的集合,就是actor部分和critic部分都用神经网络来表示。重要的是两个神经网络怎么优化。actor部分(就是策略函数):a = π (s,u) critic部分(就是Q函数): Q(s,a,w) 怎么求策略梯度呢?策略梯度就是Q对u 的梯度,先Q对a求原创 2017-06-20 15:06:30 · 2360 阅读 · 0 评论 -
深度强化学习中的NAF算法-连续控制(对DQN的改进)
DQN算法以及之前的种种改进都是面向离散的action的,DQN算法没有办法面向连续的action,因为Q值更新的时候要用到求最大的action。本来DQN主要是输出Q值的,aciton是通过argmax顺便实现的,但是现在NAF需要用神经网络输出了,那么就是同时输出Q 和 a。基本的idea就是引入了Advantage函数A(s,a),也就是每一个动作在特定状态下的优劣。原创 2017-06-20 17:13:43 · 5655 阅读 · 1 评论