THE INFORMATION GEOMETRY OF UNSUPERVISED REINFORCEMENT LEARNING

最新推荐文章于 2024-09-07 22:04:03 发布

weixin_47560863

最新推荐文章于 2024-09-07 22:04:03 发布

阅读量142

点赞数 1

分类专栏：笔记文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/weixin_47560863/article/details/123646951

版权

笔记专栏收录该内容

10 篇文章 0 订阅

订阅专栏

核心贡献
- 发现以最大化互信息的方法训练RL无法学到所有奖励函数的最优解 (无论z数量)
- 发现以最大化互信息的方法预训练RL并以自然梯度的方法微调可以最小化regret
- 以几何的方式刻画最大化互信息算法流程
mutual information skill learning (MISL)

$\max_{z,\theta} I(s;z) = \max_{p(z),\theta} E_{p(s,z)}[\log\rho^{\pi_\theta}(s|z)-\log\rho^{\pi_\theta}(s)] = \max_{p(z)}E_{p(z)}[D_{KL}(\rho(s|z)||\rho(s))]$

此处是从s的角度出发，是不可行的但是可以作为理论分析的工具

skill与下游任务关系

$\max_{p(z)} I(s;z) = \min_{\rho(s)}\max_{r(s)}L(r(s),\rho(s)) \\ L(r(s),\rho^*(s)) = \min_{\rho^*(s)}Regret(\rho^*(s)), s.t.D_{KL}(\rho^*||\rho_{init})=\epsilon \\ Regret(\rho^*(s)) = \max_{\rho^+(s)}E_{\rho^+}[r]-E_{\rho^*}[r]$

第一行 $m a x$ 代表选一个最难的任务、 $m i n$ 代表选一个对该任务最好的初始参数

第二行在 $\rho(s)$ 空间中做natural gradient (规定分布 $\rho$ 前后不能差太多， $\rho$ 包含dynamic信息实际上是不可知的)

证明: 把 $\rho^*(s) = \frac{\rho(s)exp(r)}{\int\rho(s)exp(r)}$ 待进去爆开来可以证出来

引理: $\max_{p(z),\theta} I(s;z) = \min_{\rho(s)}\max_{z,\theta} E_{p(z)}[D_{KL}(\rho^{\pi_\theta}(s|z)||\rho^{\pi_\theta}(s))]$ (把质心往最远的点靠，没看懂)

skill几何解释
- Given a set of feasible state marginals, any convex combination is also feasible.
在 $\rho$ 平面上并非所有点都可达，但若A,B两点可达，则他们的线性组合可达，由凸集定义可知所有确定性策略构成convex hull
- For every state-dependent reward function, among the set of policies that maximize that reward function is one that lies at a vertex of the state marginal polytope.
对于任意奖励函数r(s)，最优策略都在顶点上，说明RL问题只要在顶点搜寻就可以
- For every vertex of the state marginal polytope there exists a reward function for which that vertex corresponds to a reward-maximizing policy.
对于所有顶点，都有最优奖励与其对应
- The MISL skills must lie at vertices of the state marginal polytope, and thus are optimal for some reward functions
由 $\max_{z,\theta} I(s;z) = \max_{p(z)}E_{p(z)}[D_{KL}(\rho(s|z)||\rho(s))]$ 可知，MISL目标是让skill离平均 $\rho(s)$ 尽量远，如果有AB两个点，且A与平均 $\rho(s)$ 的 $D_{KL}$ 距离比较远，则B点必不是skill (容易进一步推得所有skill的距离一样，如下定理所示)，由凸集定义可知skill必是顶点，即skill构成的convex hull是可达点构成的convex hull的子集
- $p(z)\gt 0\Rightarrow D_{KL}(\rho(s|z)||\rho(s))=d_{max}$
说明所有skill与平均 $\rho(s)$ 一样远，此引理可以证明下面定理，原因是每个顶点都构造一个约束式，且在 $R^S$ 空间中多边形最多只能满足|S|个约束式
- Assume that the vertices of the state marginal polytope are not concyclic, as defifined using the KL divergence. Then MISL will recover at most |S|distinct skills.
最多只有|S|个skill，但最多可能有 $A^S$ 个最优策略，因此MISL无法覆盖所有最优策略
理解
- unsupervised learning 最简单的想法就是用z去学出多个初始化的点，然后每当有下游任务时，就挨个试，最大的就是最优解
- 但上面证明skill没法覆盖所有feasible的集合，因此有些如果用上面方法是会有regret的
- 证明了用特定的方式微调下游任务(基于 $\rho$ 的自然梯度)，可以最小化regret，虽然不如第一行好，但也是某种程度的最优解了

weixin_47560863

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
THE INFORMATION GEOMETRY OF UNSUPERVISED REINFORCEMENT LEARNING

核心贡献发现以最大化互信息的方法训练RL无法学到所有奖励函数的最优解 (无论z数量)发现以最大化互信息的方法预训练RL并以自然梯度的方法微调可以最小化regret以几何的方式刻画最大化互信息算法流程mutual information skill learning (MISL)max⁡z,θI(s;z)=max⁡p(z),θEp(s,z)[log⁡ρπθ(s∣z)−log⁡ρπθ(s)]=max⁡p(z)Ep(z)[DKL(ρ(s∣z)∣∣ρ(s))]\max_{z,\theta} I.
复制链接

扫一扫