深入浅出强化学习（4）-IRL

最新推荐文章于 2023-02-21 14:40:07 发布

zixufang

最新推荐文章于 2023-02-21 14:40:07 发布

阅读量1.7k

点赞数 4

分类专栏：强化学习

本文链接：https://blog.csdn.net/yagreenhand/article/details/88604922

版权

逆向强化学习（IRL）是一种从专家示例中学习回报函数的方法，能够模仿专家策略并进行泛化。本文介绍了最大边际的IRL和最大熵方法，探讨了如何通过神经网络提升表示能力和泛化效果。IRL通过找到最大化边际的超平面将专家策略与其他策略区分，而在最大熵原理下，选择熵最大的模型以避免主观假设。

摘要由CSDN通过智能技术生成

在这里插入图片描述
what：
逆向强化学习的提出者Ng是这么想的：专家在完成某项任务时，其决策往往是最优的或接近最优的，那么可以这样假设，当所有的策略所产生的累积回报期望都不比专家策略所产生的累积回报期望大时，强化学习所对应的回报函数就是根据示例学到的回报函数。
定义为从专家示例中学到回报函数。
分类：
基于最大边际的逆向强化学习
基于最大熵的方法
具体讲解：
1）
在行为克隆中，人的示例轨迹被记录下来，下次执行时恢复该轨迹。行为克隆的方法只能模仿轨迹，无法进行泛化。而逆向强化学习是从专家（人为）示例中学到背后的回报函数，能泛化到其他情况，因此属于模仿到了精髓。

学徒学习：
找到一个策略，使得该策略的表现与专家策略相近。我们可以利用特征期望来表示一个策略的好坏，找到一个策略，使其表现与专家策略相近，其实就是找到一个策略 $\tilde{\pi}$ 的特征期望与专家策略的特征期望相近，即使如下不等式成立：
在这里插入图片描述
未知的回报函数R(s)一般都是状态的函数，因为它是未知的，所以我们可以利用函数逼近的方法对其进行参数逼近，其逼近形式可设为： $R\left(s\right)=w\cdot\phi\left(s\right)$ ，其中 $\phi(s)$ 为基函数，可以为多项式基底，也可以为傅里叶基底。逆向强化学习求的是回报函数中的系数w。
策略 $\pi$ 的值函数为：

$E_{s_0 ~ D}\left[V^{\pi}\left(s_0\right)\right] \\=E\left[\Sigma_{t=0}^{\infty}\gamma^tR\left(s_t\right)|\pi\right] \\=E\left[\Sigma_{t=0}^{\infty}\gamma^tw\cdot\phi\left(s_t\right)|\pi\right]\\=w\cdot E\left[\Sigma_{t=0}^{\infty}\gamma^t\phi\left(s_t\right)|\pi\right]$
定义特征期望为：

最低0.47元/天解锁文章

zixufang

关注

4
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
深入浅出强化学习（4）-IRL

what：逆向强化学习的提出者Ng是这么想的：专家在完成某项任务时，其决策往往是最优的或接近最优的，那么可以这样假设，当所有的策略所产生的累积回报期望都不比专家策略所产生的累积回报期望大时，强化学习所对应的回报函数就是根据示例学到的回报函数。定义为从专家示例中学到回报函数。分类：基于最大边际的逆向强化学习基于最大熵的方法具体讲解：1）在行为克隆中，人的示例轨迹被记录下来，下次执行...
复制链接

扫一扫