THE INFORMATION GEOMETRY OF UNSUPERVISED REINFORCEMENT LEARNING

  • 核心贡献
    • 发现以最大化互信息的方法训练RL无法学到所有奖励函数的最优解 (无论z数量)
    • 发现以最大化互信息的方法预训练RL并以自然梯度的方法微调可以最小化regret
    • 以几何的方式刻画最大化互信息算法流程
  • mutual information skill learning (MISL)

max ⁡ z , θ I ( s ; z ) = max ⁡ p ( z ) , θ E p ( s , z ) [ log ⁡ ρ π θ ( s ∣ z ) − log ⁡ ρ π θ ( s ) ] = max ⁡ p ( z ) E p ( z ) [ D K L ( ρ ( s ∣ z ) ∣ ∣ ρ ( s ) ) ] \max_{z,\theta} I(s;z) = \max_{p(z),\theta} E_{p(s,z)}[\log\rho^{\pi_\theta}(s|z)-\log\rho^{\pi_\theta}(s)] = \max_{p(z)}E_{p(z)}[D_{KL}(\rho(s|z)||\rho(s))] z,θmaxI(s;z)=p(z),θmaxEp(s,z)[logρπθ(sz)logρπθ(s)]=p(z)maxEp(z)[DKL(ρ(sz)ρ(s))]

此处是从s的角度出发,是不可行的但是可以作为理论分析的工具

  • skill与下游任务关系

max ⁡ p ( z ) I ( s ; z ) = min ⁡ ρ ( s ) max ⁡ r ( s ) L ( r ( s ) , ρ ( s ) ) L ( r ( s ) , ρ ∗ ( s ) ) = min ⁡ ρ ∗ ( s ) R e g r e t ( ρ ∗ ( s ) ) , s . t . D K L ( ρ ∗ ∣ ∣ ρ i n i t ) = ϵ R e g r e t ( ρ ∗ ( s ) ) = max ⁡ ρ + ( s ) E ρ + [ r ] − E ρ ∗ [ r ] \max_{p(z)} I(s;z) = \min_{\rho(s)}\max_{r(s)}L(r(s),\rho(s)) \\ L(r(s),\rho^*(s)) = \min_{\rho^*(s)}Regret(\rho^*(s)), s.t.D_{KL}(\rho^*||\rho_{init})=\epsilon \\ Regret(\rho^*(s)) = \max_{\rho^+(s)}E_{\rho^+}[r]-E_{\rho^*}[r] p(z)maxI(s;z)=ρ(s)minr(s)maxL(r(s),ρ(s))L(r(s),ρ(s))=ρ(s)minRegret(ρ(s)),s.t.DKL(ρρinit)=ϵRegret(ρ(s))=ρ+(s)maxEρ+[r]Eρ[r]

第一行 m a x max max代表选一个最难的任务、 m i n min min代表选一个对该任务最好的初始参数

第二行在 ρ ( s ) \rho(s) ρ(s)空间中做natural gradient (规定分布 ρ \rho ρ前后不能差太多, ρ \rho ρ包含dynamic信息实际上是不可知的)

证明: 把 ρ ∗ ( s ) = ρ ( s ) e x p ( r ) ∫ ρ ( s ) e x p ( r ) \rho^*(s) = \frac{\rho(s)exp(r)}{\int\rho(s)exp(r)} ρ(s)=ρ(s)exp(r)ρ(s)exp(r)待进去爆开来可以证出来

引理: max ⁡ p ( z ) , θ I ( s ; z ) = min ⁡ ρ ( s ) max ⁡ z , θ E p ( z ) [ D K L ( ρ π θ ( s ∣ z ) ∣ ∣ ρ π θ ( s ) ) ] \max_{p(z),\theta} I(s;z) = \min_{\rho(s)}\max_{z,\theta} E_{p(z)}[D_{KL}(\rho^{\pi_\theta}(s|z)||\rho^{\pi_\theta}(s))] maxp(z),θI(s;z)=minρ(s)maxz,θEp(z)[DKL(ρπθ(sz)ρπθ(s))] (把质心往最远的点靠,没看懂)

  • skill几何解释

    • Given a set of feasible state marginals, any convex combination is also feasible.

    ρ \rho ρ平面上并非所有点都可达,但若A,B两点可达,则他们的线性组合可达,由凸集定义可知所有确定性策略构成convex hull

    • For every state-dependent reward function, among the set of policies that maximize that reward function is one that lies at a vertex of the state marginal polytope.

    对于任意奖励函数r(s),最优策略都在顶点上,说明RL问题只要在顶点搜寻就可以

    • For every vertex of the state marginal polytope there exists a reward function for which that vertex corresponds to a reward-maximizing policy.

    对于所有顶点,都有最优奖励与其对应

    • The MISL skills must lie at vertices of the state marginal polytope, and thus are optimal for some reward functions

    max ⁡ z , θ I ( s ; z ) = max ⁡ p ( z ) E p ( z ) [ D K L ( ρ ( s ∣ z ) ∣ ∣ ρ ( s ) ) ] \max_{z,\theta} I(s;z) = \max_{p(z)}E_{p(z)}[D_{KL}(\rho(s|z)||\rho(s))] maxz,θI(s;z)=maxp(z)Ep(z)[DKL(ρ(sz)ρ(s))]可知,MISL目标是让skill离平均 ρ ( s ) \rho(s) ρ(s)尽量远,如果有AB两个点,且A与平均 ρ ( s ) \rho(s) ρ(s) D K L D_{KL} DKL距离比较远,则B点必不是skill (容易进一步推得所有skill的距离一样,如下定理所示),由凸集定义可知skill必是顶点,即skill构成的convex hull是可达点构成的convex hull的子集

    • p ( z ) > 0 ⇒ D K L ( ρ ( s ∣ z ) ∣ ∣ ρ ( s ) ) = d m a x p(z)\gt 0\Rightarrow D_{KL}(\rho(s|z)||\rho(s))=d_{max} p(z)>0DKL(ρ(sz)ρ(s))=dmax

    说明所有skill与平均 ρ ( s ) \rho(s) ρ(s)一样远,此引理可以证明下面定理,原因是每个顶点都构造一个约束式,且在 R S R^S RS空间中多边形最多只能满足|S|个约束式

    • Assume that the vertices of the state marginal polytope are not concyclic, as defifined using the KL divergence. Then MISL will recover at most |S|distinct skills.

    最多只有|S|个skill,但最多可能有 A S A^S AS个最优策略,因此MISL无法覆盖所有最优策略

  • 理解

    • unsupervised learning 最简单的想法就是用z去学出多个初始化的点,然后每当有下游任务时,就挨个试,最大的就是最优解
    • 但上面证明skill没法覆盖所有feasible的集合,因此有些如果用上面方法是会有regret的
    • 证明了用特定的方式微调下游任务(基于 ρ \rho ρ的自然梯度),可以最小化regret,虽然不如第一行好,但也是某种程度的最优解了
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值