强化学习(四)

最新推荐文章于 2022-06-05 22:34:24 发布

我身后没尾巴

最新推荐文章于 2022-06-05 22:34:24 发布

阅读量199

点赞数

分类专栏：菜鸟学习之路文章标签：强化学习

本文链接：https://blog.csdn.net/weixin_45411464/article/details/109480850

版权

菜鸟学习之路专栏收录该内容

6 篇文章 1 订阅

订阅专栏

Keywords

1.DQN(Deep Q-Network)： 基于深度学习的Q-learning算法，其结合了 Value Function Approximation（价值函数近似）与神经网络技术，并采用了目标网络（Target Network）和经历回放（Experience Replay）的方法进行网络的训练。
2. State-value Function：本质是一种critic。其输入为actor某一时刻的state，对应的输出为一个标量，即当actor在对应的state时，预期的到过程结束时间段中获得的value的数值。
3. Exploration： 在我们使用Q-function的时候，我们的policy完全取决于Q-function，有可能导致出现对应的action是固定的某几个数值的情况，而不像policy gradient中的output为随机的，我们再从随机的distribution中sample选择action。这样会导致我们继续训练的input的值一样，从而”加重“output的固定性，导致整个模型的表达能力的急剧下降，这也就是探索-利用窘境(Exploration-Exploitation dilemma) 问题。所以我们使用Epsilon Greedy 和 Boltzmann Exploration 等Exploration方法进行优化

Question

一.解决探索-利用窘境(Exploration-Exploitation dilemma) 问题的Exploration的方法有哪些？他们具体的方法是怎样的？
答：
1. Epsilon Greedy： 我们有的机率，通常很小，完全按照Q-function 来决定action。但是有的机率是随机的。通常在实现上会随着时间递减。也就是在最开始的时候。因为还不知道那个action 是比较好的，所以你会花比较大的力气在做 exploration。接下来随着training 的次数越来越多。已经比较确定说哪一个Q 是比较好的。你就会减少你的exploration，你会把的值变小，主要根据Q-function 来决定你的action，比较少做random，这是Epsilon Greedy。
2. Boltzmann Exploration： 这个方法就比较像是 policy gradient。在 policy gradient 里面network 的output 是一个 expected action space 上面的一个的 probabilitydistribution。再根据 probability distribution 去做 sample。所以也可以根据Q value 去定一个 probability distribution，假设某一个 action 的 Q value 越大，代表它越好，我们采取这个 action 的机率就越高。这是Boltzmann Exploration。

二.我们使用Experience Replay（经验回放）有什么好处？
答：

首先，在强化学习的整个过程中，最花时间的 step 是在跟环境做互动，使用GPU乃至TPU加速来训练 network 相对来说是比较快的。而用 replay buffer 可以减少跟环境做互动的次数，因为在训练的时候，我们的 experience 不需要通通来自于某一个policy（或者当前时刻的policy）。一些过去的 policy 所得到的experience 可以放在 buffer 里面被使用很多次，被反复的再利用，这样让你的 sample 到 experience 的利用是高效的。
另外，在训练网络的时候，其实我们希望一个 batch 里面的 data 越 diverse 越好。如果你的 batch 里面的 data 都是同样性质的，我们的训练出的模型拟合能力不会很乐观。如果 batch 里面都是一样的 data，你 train 的时候，performance 会比较差。我们希望 batch data 越 diverse 越好。那如果 buffer 里面的那些experience 通通来自于不同的 policy ，那你 sample 到的一个 batch 里面的 data 会是比较 diverse 。这样可以保证我们模型的性能至少不会很差。

三.DQN（Deep Q-learning）和Q-learning有什么异同点？
答：整体来说，从名称就可以看出，两者的目标价值以及价值的update方式基本相同，另外一方面，不同点在于：
a. 首先，DQN 将 Q-learning 与深度学习结合，用深度网络来近似动作价值函数，而 Q-learning 则是采用表格存储。
b. DQN 采用了我们前面所描述的经验回放（Experience Replay）训练方法，从历史数据中随机采样，而 Q-learning 直接采用下一个状态的数据进行学习。

我身后没尾巴

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
强化学习(四)

Keywords1.DQN(Deep Q-Network)：基于深度学习的Q-learning算法，其结合了 Value Function Approximation（价值函数近似）与神经网络技术，并采用了目标网络（Target Network）和经历回放（Experience Replay）的方法进行网络的训练。2. State-value Function：本质是一种critic。其输入为actor某一时刻的state，对应的输出为一个标量，即当actor在对应的state时，预期的到过程结束时
复制链接

扫一扫