what:
逆向强化学习的提出者Ng是这么想的:专家在完成某项任务时,其决策往往是最优的或接近最优的,那么可以这样假设,当所有的策略所产生的累积回报期望都不比专家策略所产生的累积回报期望大时,强化学习所对应的回报函数就是根据示例学到的回报函数。
定义为从专家示例中学到回报函数。
分类:
基于最大边际的逆向强化学习
基于最大熵的方法
具体讲解:
1)
在行为克隆中,人的示例轨迹被记录下来,下次执行时恢复该轨迹。行为克隆的方法只能模仿轨迹,无法进行泛化。而逆向强化学习是从专家(人为)示例中学到背后的回报函数,能泛化到其他情况,因此属于模仿到了精髓。
学徒学习:
找到一个策略,使得该策略的表现与专家策略相近。我们可以利用特征期望来表示一个策略的好坏,找到一个策略,使其表现与专家策略相近,其实就是找到一个策略 π ~ \tilde{\pi} π~的特征期望与专家策略的特征期望相近,即使如下不等式成立:
未知的回报函数R(s)一般都是状态的函数,因为它是未知的,所以我们可以利用函数逼近的方法对其进行参数逼近,其逼近形式可设为: R ( s ) = w ⋅ ϕ ( s ) R\left(s\right)=w\cdot\phi\left(s\right) R(s)=w⋅ϕ(s),其中 ϕ ( s ) \phi(s) ϕ(s)为基函数,可以为多项式基底,也可以为傅里叶基底。逆向强化学习求的是回报函数中的系数w。
策略 π \pi π的值函数为:
E s 0 D [ V π ( s 0 ) ] = E [ Σ t = 0 ∞ γ t R ( s t ) ∣ π ] = E [ Σ t = 0 ∞ γ t w ⋅ ϕ ( s t ) ∣ π ] = w ⋅ E [ Σ t = 0 ∞ γ t ϕ ( s t ) ∣ π ] E_{s_0 ~ D}\left[V^{\pi}\left(s_0\right)\right] \\=E\left[\Sigma_{t=0}^{\infty}\gamma^tR\left(s_t\right)|\pi\right] \\=E\left[\Sigma_{t=0}^{\infty}\gamma^tw\cdot\phi\left(s_t\right)|\pi\right]\\=w\cdot E\left[\Sigma_{t=0}^{\infty}\gamma^t\phi\left(s_t\right)|\pi\right] Es0 D[Vπ(s0)]=E[Σt=0∞γtR(st)∣π]=E[Σt=0∞γtw⋅ϕ(st)∣π]=w⋅E[Σt=0∞γtϕ(st)∣π]
定义特征期望为: μ