车辆换道决策论文(3)

本文探讨了在车辆换道决策中,使用RKHS-PG(Reproducing Kernel Hilbert Space - Policy Gradient)方法解决高维策略空间优化的问题。策略梯度在RL中用于直接学习策略,但面临方差大的挑战。RKHS引入非参数化策略,通过其再生性质减少复杂性。文中介绍了基于RKHS的非参数策略和梯度计算,包括Log Trick、Likelihood Ratio (LR) 方法以及Policy Gradient Theorem (PGT)。然而,仍有一些重要概念如重要性采样和正则化未深入理解,需要进一步研究相关文献。
摘要由CSDN通过智能技术生成

写在前面的话

距离上一篇文章已经2周时间了,上周出国开会基本上没怎么读文章,时间都用于准备报告和出门社交上了,回头一看这么长时间有点荒废,马上要2019年了,进展缓慢,需要加油努力。 看论文是一方面,提升自己的代码能力和实践动手能力是我急需提升的能力。以后有好的github开源项目我也会分享一下。

论文

论文1:Importance sampling policy gradient algorithms in reproducing kernel Hilbert space
方法:RKHS-PG
2017年AI Rev的期刊论文,不是特别好的期刊,但是跟motion planning很相关,所以觉得读一下。

motion planning 最大的区别是从一个即时动作变成了一条轨迹,这也是VIN的突破

论文2: Modelling Policies in MDPs in Reproducing Kernel Hilbert Space, London大学 2015
方法:Compatible RKHS AC

RKHS-PG

PG即策略梯度是强化学习中直接学习策略的方式,隶属于policy search分支,目前Berkeley提出的很多机器人RL方法均是基于PG架构。 Policy Gradient 参数化策略往往需要预定义特征,这对于高维空间而言很难定义好的特征 (常规的策略参数化结构:h(s) = θφ(s), 以RBF来看的话,就是学习参数theta)。不了解PG的可以参考莫凡PG教程[1],

了解强化学习的知道,PG是一种无偏估计,但是存在较大方差,可以收敛到局部最优,原因是因为参数theta的更新公式时(以下面Reinforce算法为例),其实我们没办法得到准确的V值估计,从而引入了较大的方差
在这里插入图片描述

这里的RKHS-PG是为了解决高维策略空间优化问题,
同PG一样,也面临着方差大的问题,原因文中介绍是updating the current policy is based on a functional
gradient that does not exploit all old episodes sampled by previous policies.

RKHS的引入带来一个好处,就是引入非参数化的策略,主要是基于RKHS中的可再生属性.

Section I:

轨迹ξ = {ξ1, ξ2, . . . , ξt }上的reward函数
在这里插入图片描述
相应的value function
在这里插入图片描述
p(ξ|π)为在策略π下生成轨迹ξ的概率,
在这里插入图片描述
策略梯度方法:
在这里插入图片描述
LR(Likelihood ratio method) 似然比方法
在这里插入图片描述

什么是log trick? 在这什么是log trick?里插入图片描述

Then
在这里插入图片描述
由于我们不知道p(ξ|π)的值,所以利用蒙特卡洛搜索进行N次传递,得到估计值
在这里插入图片描述

PGT(policy gradient theorem) 策略梯度原理
在这里插入图片描述

RHKS下的non-parametric policy

首先回顾RHKS下的可再生性质(详细介绍可参考车辆换道决策论文1):
在这里插入图片描述
在RHKS空间中的一个线性函数可以表述为
h ( ⋅ ) = ∑ i K ( x i , ⋅ ) y i h(\cdot) = \sum_i K(x_i, \cdot) y_i

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值