强化学习的学习之路（五十五）2021-02-24 模仿学习介绍

最新推荐文章于 2022-07-07 19:50:07 发布

Chou_pijiang

最新推荐文章于 2022-07-07 19:50:07 发布

阅读量316

点赞数

分类专栏：强化学习-基础知识文章标签：深度学习机器学习强化学习

本文链接：https://blog.csdn.net/zyh19980527/article/details/115448750

版权

强化学习-基础知识专栏收录该内容

60 篇文章 107 订阅

订阅专栏

作为一个新手，写这个强化学习-基础知识专栏是想和大家分享一下自己学习强化学习的学习历程，希望对大家能有所帮助。这个系列后面会不断更新，希望自己在2021年能保证平均每日一更的更新速度，主要是介绍强化学习的基础知识，后面也会更新强化学习的论文阅读专栏。本来是想每一篇多更新一点内容的，后面发现大家上CSDN主要是来提问的，就把很多拆分开来了（而且这样每天任务量也小一点哈哈哈哈偷懒大法）。但是我还是希望知识点能成系统，所以我在目录里面都好按章节系统地写的，而且在github上写成了书籍的形式，如果大家觉得有帮助，希望从头看的话欢迎关注我的github啊，谢谢大家！另外我还会分享深度学习-基础知识专栏以及深度学习-论文阅读专栏，很早以前就和小伙伴们花了很多精力写的，如果有对深度学习感兴趣的小伙伴也欢迎大家关注啊。大家一起互相学习啊！可能会有很多错漏，希望大家批评指正！不要高估一年的努力，也不要低估十年的积累，与君共勉！

Imitation Learning

Behavior Cloning

Behavioral Cloning 是一种纯监督学习的方法，那学习自动驾驶举例，在bahavior cloning的设置下，可以通过采集人类司机对于不同的状态的决策结果，形成数据集，并基于这个数据集进行训练，从而学到一个从observation到aciton的映射，也就是如果在某一个场景下人是向左打了方向，那么下次智能体看到这种情况后也会向左打方向。
在这里插入图片描述

但是这么做会带来一个问题，也就是当我们遇到了不在数据集中存在的observation时，智能体就不知道怎么做了因此就可能会给出一个有偏差的action然后又进入了一个不在数据集中存在的observation，这样就会使得误差不断地进行累计，导致整个策略的效果变得很差。这个问题其实就是监督学习的泛化性的问题。

Data Augmentation

针对上述的误差累积的问题，一个常见的方法时，Data Augmentation(数据增强）是一个常见的方法。如NVIDIA在自动驾驶的场景下，在车的三个方向装上摄像头，observation是摄像头的图像，action是方向盘的角度。对于正面的摄像头，期望的action就是和当前方向盘的方向一致。而对于左边和右边的摄像observation，对应的action则是将对应的方向盘方向分别向右和向左偏移对应的角度，从而就获得了相对原来三倍的数据，更重要的是，有了更多拐弯的数据，这些在正常的行驶中是占少数的，从而使得这个原先更可能出现误差累积的拐弯时刻变得更robust。

DAgger

针对于上诉误差累积的问题，我们知道其实很重要的一个原因就是实际policy中observation空间和标注数据中observation空间相差比较大（这个问题也叫做Distributional drift，是监督学习中常见的一个问题），所以产生了很多我们在数据集中没见过的observation。而DAgger（Dataset Aggregation) 就是解决这个问题的一种方法：既然policy生成的observation不在label的observation之内，那么就将新生成的数据进行再次标注，并继续学习这些数据。下面也就是算法的流程，核心在第三步。

但是在实际操作中，第三步其实是很困难的，因为“只给人类一张图片就让人做出决策”这件事情对于人来说是很困难的。

在这里插入图片描述

上一篇：强化学习的学习之路（五十四) 2021-02-23 DDPG
下一篇：强化学习的学习之路（五十六）2021-02-25 模仿学习存在的问题

Chou_pijiang

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
强化学习的学习之路（五十五）2021-02-24 模仿学习介绍

作为一个新手，写这个强化学习-基础知识专栏是想和大家分享一下自己学习强化学习的学习历程，希望对大家能有所帮助。这个系列后面会不断更新，希望自己在2021年能保证平均每日一更的更新速度，主要是介绍强化学习的基础知识，后面也会更新强化学习的论文阅读专栏。本来是想每一篇多更新一点内容的，后面发现大家上CSDN主要是来提问的，就把很多拆分开来了（而且这样每天任务量也小一点哈哈哈哈偷懒大法）。但是我还是希望知识点能成系统，所以我在目录里面都好按章节系统地写的，而且在github上写成了书籍的形式，如果大家觉得有帮助，
复制链接

扫一扫

专栏目录