Probabilistic Movement Primitives (ProMP) 总结

最新推荐文章于 2024-08-08 15:12:59 发布

zzzzzzzzzzhy

最新推荐文章于 2024-08-08 15:12:59 发布

阅读量691

点赞数

分类专栏： Paper总结文章标签：算法人工智能

本文链接：https://blog.csdn.net/zzzzzzzzzzhy/article/details/127562845

版权

Paper总结专栏收录该内容

3 篇文章 0 订阅

订阅专栏

概述

文章通过在DMP的基础上增加随机项，并通过EM算法求解得到符合示教数据的参数.

一. 模型介绍

1. 系统方程

假设示教数据为 $\tau = \{q_t, \dot{q}_t\}_{t=0,...,T}$ ,记 $y_t=\{q_t, \dot{q_t} \}$ ，则系统方程可表示为:
$y_t = \Phi_t^T\omega + \epsilon _y,$ 其中 $\Phi_t=[\phi_t, \dot{\phi}_t]\in \mathbb{R}^{n\times 2}$ 为基函数, $\omega$ 为待学习的参数, $\epsilon \sim \mathcal{N}(0,\Sigma_y)$ ， $\Sigma_y$ 可以从示教数据中辨识。则给定一条轨迹 $\tau$ ，其关于 $\omega$ 的条件概率为 $p(\tau|\omega) = \Pi_t \mathcal{N}(y_t|\Phi_t \omega, \Sigma_y)$ 文章中假设 $\omega$ 是参数为 $\theta$ 的正态分布: $p(\omega;\theta) = \mathcal{N}(\omega|\mu_\omega, \Sigma_\omega)$ ，则可得
$p(y_t;\theta) = \int{\mathcal{N}(y_t|\Phi_t^T\omega,\Sigma_y)\mathcal{N}(\omega|\mu_\omega, \Sigma_\omega)} = \mathcal{N}(y_t| \Phi_t \mu_{\omega}, \Phi_t^T\Sigma_\omega\Phi_t+\Sigma_y),$ 可知 $y_t=\{q_t, \dot{q_t} \}$ 服从正态分布。

2. 相位系统

与DMP相同，ProMP也通过一个相位系统来隐式地表征时间： $\dot{z} = f(z)$ 通过改变 $f$ ，可以调整轨迹的快慢(Temporal Modulation)。则此时基函数可以表示为关于 $z$ 的函数: $\phi_t = \phi(z_t), \dot{\phi}_t = \phi'(z)\dot{z}_t$ ，之后根据示教数据终点是吸引子还是极限环，选择相应的基函数（见DMP）。

3. 高维系统

上述系统可以轻易地拓展到高维系统中，只需将 $\mathcal{N}(y_t|\Phi_t^T\omega,\Sigma_y)$ 中的 $\Phi_t^T$ 改为 $Diag(\Phi_{1t}^T,...,\Phi_{kt}^T)$ ， $\omega = [\omega_1, ..., \omega_k]$ 即可。

4. 参数学习

系统中的需要学习的参数为 $\theta = \{\mu_\omega, \Sigma_\omega\},$ 可通过计算极大似然估计，通过EM算法得到符合示教数据的 $\mu_\omega, \Sigma_\omega。$

二. ProMP与DMP的不同

可以看出，ProMP与DMP的区别在于:
① 假设参数 $\omega$ 服从正态分布， $p(\omega;\theta) = \mathcal{N}(\omega|\mu_\omega, \Sigma_\omega)$ ，而在DMP中 $\omega$ 为确定的常数。
② 在系统方程中增加了随机项 $\epsilon \sim \mathcal{N}(0,\Sigma_y)$ ，用来表征观测噪声。
③ DMP中通过动态系统构建方程，通过ODE生成一条轨迹；而ProMP通过联合正态分布来构建系统方程，随着相位变量 $z$ 的变换，每一时刻 $y_t, \dot{y}_t$ 都服从一个正态分布，通过采样生成一条轨迹。