车辆换道决策论文(3)

最新推荐文章于 2024-06-05 17:43:26 发布

青山不改水流

最新推荐文章于 2024-06-05 17:43:26 发布

阅读量2k

点赞数 4

本文链接：https://blog.csdn.net/weixin_43820141/article/details/85121577

版权

本文探讨了在车辆换道决策中，使用RKHS-PG（Reproducing Kernel Hilbert Space - Policy Gradient）方法解决高维策略空间优化的问题。策略梯度在RL中用于直接学习策略，但面临方差大的挑战。RKHS引入非参数化策略，通过其再生性质减少复杂性。文中介绍了基于RKHS的非参数策略和梯度计算，包括Log Trick、Likelihood Ratio (LR) 方法以及Policy Gradient Theorem (PGT)。然而，仍有一些重要概念如重要性采样和正则化未深入理解，需要进一步研究相关文献。

摘要由CSDN通过智能技术生成

写在前面的话

距离上一篇文章已经2周时间了，上周出国开会基本上没怎么读文章，时间都用于准备报告和出门社交上了，回头一看这么长时间有点荒废，马上要2019年了，进展缓慢，需要加油努力。看论文是一方面，提升自己的代码能力和实践动手能力是我急需提升的能力。以后有好的github开源项目我也会分享一下。

论文

论文1：Importance sampling policy gradient algorithms in reproducing kernel Hilbert space
方法：RKHS-PG
2017年AI Rev的期刊论文，不是特别好的期刊，但是跟motion planning很相关，所以觉得读一下。

motion planning 最大的区别是从一个即时动作变成了一条轨迹，这也是VIN的突破

论文2： Modelling Policies in MDPs in Reproducing Kernel Hilbert Space， London大学 2015
方法：Compatible RKHS AC

RKHS-PG

PG即策略梯度是强化学习中直接学习策略的方式，隶属于policy search分支，目前Berkeley提出的很多机器人RL方法均是基于PG架构。 Policy Gradient 参数化策略往往需要预定义特征，这对于高维空间而言很难定义好的特征 (常规的策略参数化结构：h(s) = θφ(s), 以RBF来看的话，就是学习参数theta)。不了解PG的可以参考莫凡PG教程[1],

了解强化学习的知道，PG是一种无偏估计，但是存在较大方差，可以收敛到局部最优，原因是因为参数theta的更新公式时(以下面Reinforce算法为例），其实我们没办法得到准确的V值估计，从而引入了较大的方差
在这里插入图片描述

这里的RKHS-PG是为了解决高维策略空间优化问题，
同PG一样，也面临着方差大的问题，原因文中介绍是updating the current policy is based on a functional
gradient that does not exploit all old episodes sampled by previous policies.

RKHS的引入带来一个好处，就是引入非参数化的策略，主要是基于RKHS中的可再生属性.