深入浅出强化学习(4)-IRL

逆向强化学习(IRL)是一种从专家示例中学习回报函数的方法,能够模仿专家策略并进行泛化。本文介绍了最大边际的IRL和最大熵方法,探讨了如何通过神经网络提升表示能力和泛化效果。IRL通过找到最大化边际的超平面将专家策略与其他策略区分,而在最大熵原理下,选择熵最大的模型以避免主观假设。
摘要由CSDN通过智能技术生成

在这里插入图片描述
what:
逆向强化学习的提出者Ng是这么想的:专家在完成某项任务时,其决策往往是最优的或接近最优的,那么可以这样假设,当所有的策略所产生的累积回报期望都不比专家策略所产生的累积回报期望大时,强化学习所对应的回报函数就是根据示例学到的回报函数。
定义为从专家示例中学到回报函数。
分类:
基于最大边际的逆向强化学习
基于最大熵的方法
具体讲解:
1)
在行为克隆中,人的示例轨迹被记录下来,下次执行时恢复该轨迹。行为克隆的方法只能模仿轨迹,无法进行泛化。而逆向强化学习是从专家(人为)示例中学到背后的回报函数,能泛化到其他情况,因此属于模仿到了精髓。

学徒学习:
找到一个策略,使得该策略的表现与专家策略相近。我们可以利用特征期望来表示一个策略的好坏,找到一个策略,使其表现与专家策略相近,其实就是找到一个策略 π ~ \tilde{\pi} π~的特征期望与专家策略的特征期望相近,即使如下不等式成立:
在这里插入图片描述
未知的回报函数R(s)一般都是状态的函数,因为它是未知的,所以我们可以利用函数逼近的方法对其进行参数逼近,其逼近形式可设为: R ( s ) = w ⋅ ϕ ( s ) R\left(s\right)=w\cdot\phi\left(s\right) R(s)=wϕ(s),其中 ϕ ( s ) \phi(s) ϕ(s)为基函数,可以为多项式基底,也可以为傅里叶基底。逆向强化学习求的是回报函数中的系数w。
策略 π \pi π的值函数为:

E s 0   D [ V π ( s 0 ) ] = E [ Σ t = 0 ∞ γ t R ( s t ) ∣ π ] = E [ Σ t = 0 ∞ γ t w ⋅ ϕ ( s t ) ∣ π ] = w ⋅ E [ Σ t = 0 ∞ γ t ϕ ( s t ) ∣ π ] E_{s_0 ~ D}\left[V^{\pi}\left(s_0\right)\right] \\=E\left[\Sigma_{t=0}^{\infty}\gamma^tR\left(s_t\right)|\pi\right] \\=E\left[\Sigma_{t=0}^{\infty}\gamma^tw\cdot\phi\left(s_t\right)|\pi\right]\\=w\cdot E\left[\Sigma_{t=0}^{\infty}\gamma^t\phi\left(s_t\right)|\pi\right] Es0 D[Vπ(s0)]=E[Σt=0γtR(st)π]=E[Σt=0γtwϕ(st)π]=wE[Σt=0γtϕ(st)π]
定义特征期望为: μ

  • 4
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
"lets-do-irl" 是一个英文短语,表示鼓励将虚拟世界的交流转化为现实世界的行动。它可以用来鼓励人们跨越网上空间,面对面地会面和互动,以加强沟通和真实体验。 "lets-do-irl" 的意思是希望能够抛开虚拟社交媒体和聊天应用的束缚,跳出网络的框架,与人们真实地相遇和交流。通过面对面的互动,我们能够更深入地了解他人,更好地分享和传递信息。虚拟世界的沟通往往缺乏真实性和纯粹性,而真实的接触可以带来更加真实和深入的交流体验。 在以科技为基础的社会中,人们越来越依赖虚拟交流。虽然这种交流方式能够跨越时空限制,但是它也有一定的局限性。通过面对面的会面,我们可以观察对方的表情、姿态和语气,更好地理解他们的意图和情感。这种亲身的经历可以增强交流的真实性和亲近感。 通过真实的接触,我们也可以建立更加稳固和持久的关系。通过面对面的互动,我们可以建立真正的信任和情感联系。而纯粹的虚拟世界交流容易被误解和产生疑虑。通过亲自相遇和交谈,我们可以更好地解决问题,协商解决方案,并减轻误解和误会。 总之,“lets-do-irl”鼓励我们摆脱虚拟媒体的限制,勇敢地投入现实世界的交流和互动。通过真实的接触,我们可以获得更丰富和深入的交流体验,建立真实和持久的关系,并在现实生活中享受更多的亲密和真诚。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值