写在前面的话
距离上一篇文章已经2周时间了,上周出国开会基本上没怎么读文章,时间都用于准备报告和出门社交上了,回头一看这么长时间有点荒废,马上要2019年了,进展缓慢,需要加油努力。 看论文是一方面,提升自己的代码能力和实践动手能力是我急需提升的能力。以后有好的github开源项目我也会分享一下。
论文
论文1:Importance sampling policy gradient algorithms in reproducing kernel Hilbert space
方法:RKHS-PG
2017年AI Rev的期刊论文,不是特别好的期刊,但是跟motion planning很相关,所以觉得读一下。
motion planning 最大的区别是从一个即时动作变成了一条轨迹,这也是VIN的突破
论文2: Modelling Policies in MDPs in Reproducing Kernel Hilbert Space, London大学 2015
方法:Compatible RKHS AC
RKHS-PG
PG即策略梯度是强化学习中直接学习策略的方式,隶属于policy search分支,目前Berkeley提出的很多机器人RL方法均是基于PG架构。 Policy Gradient 参数化策略往往需要预定义特征,这对于高维空间而言很难定义好的特征 (常规的策略参数化结构:h(s) = θφ(s), 以RBF来看的话,就是学习参数theta)。不了解PG的可以参考莫凡PG教程[1],
了解强化学习的知道,PG是一种无偏估计,但是存在较大方差,可以收敛到局部最优,原因是因为参数theta的更新公式时(以下面Reinforce算法为例),其实我们没办法得到准确的V值估计,从而引入了较大的方差
这里的RKHS-PG是为了解决高维策略空间优化问题,
同PG一样,也面临着方差大的问题,原因文中介绍是updating the current policy is based on a functional
gradient that does not exploit all old episodes sampled by previous policies.
RKHS的引入带来一个好处,就是引入非参数化的策略,主要是基于RKHS中的可再生属性.
Section I:
轨迹ξ = {ξ1, ξ2, . . . , ξt }上的reward函数
相应的value function
p(ξ|π)为在策略π下生成轨迹ξ的概率,
策略梯度方法:
LR(Likelihood ratio method) 似然比方法
什么是log trick?
Then
由于我们不知道p(ξ|π)的值,所以利用蒙特卡洛搜索进行N次传递,得到估计值
PGT(policy gradient theorem) 策略梯度原理
RHKS下的non-parametric policy
首先回顾RHKS下的可再生性质(详细介绍可参考车辆换道决策论文1):
在RHKS空间中的一个线性函数可以表述为
h ( ⋅ ) = ∑ i K ( x i , ⋅ ) y i h(\cdot) = \sum_i K(x_i, \cdot) y_i