任务参数化动作学习(task-parameterized movement learning)

哥斯拉-

已于 2024-07-16 11:27:01 修改

阅读量505

点赞数 10

文章标签：算法

于 2024-01-04 19:02:36 首次发布

本文链接：https://blog.csdn.net/weixin_44562141/article/details/135335794

版权

Task-parameterized Gaussian mixture model (TP-GMM)

对于一组示教数据 $\bm{ξ}$ ，从不同的坐标系去观测它
$X^{(j)}_t=\bm{A}^{-1}_{t,j}(\bm{ξ}_t-\bm{b}_{t,j})$
上标 $j$ 代表坐标系，下标 $t$ 代表示教轨迹数据 $(d a t a p o in t s)$ 的索引， $A$ 和 $b$ 代表坐标系 $j$ 的姿态描述和位置描述。这里假设，最初的示教数据是在0系下，经过坐标变换，变到 $j$ 系下（j 系为观测坐标系，论文中取了两个观测坐标系）。TP-GMM 形式为有 $K$ 个 $co m p o n e n t$ ，其索引为 $i$ 。 $TP - GMM$ 具体形式为
$\{{\pi_i,\{μ_i^{(j)},Σ^{(j)}_i}\}^P_{j=1}\}^K_{i=1}$
可以看出均值 ${μ}$ 和 $Σ$ 方差的维度为 $K \times P$ 。上式由 $EM$ 算法计算得具体形式：
在这里插入图片描述
$h_{t,i}$ 表示数据点 $t$ 生成于第 $i$ 个 $co m p o n e n t$ 的概率。可以看出 $co m p o n e n t$ 系数是各个坐标系共有的，而均值和方差是在各个坐标系下单独计算。

Task-parameterized Gaussian mixture regression (TP-GMR)

训练出的TP-GMM模型是输入输出（ $ξ^I$ 和 $ξ^o$ ）的联合分布（ $P$ ( $ξ^I$ ， $ξ^o$ )），对于任务空间中的轨迹数据（ $ξ^I$ ， $ξ^o$ ），上标 I 对应（时间）输入维度，O 对应于描述任务空间中路径(位置和方向)的输出维度。接下来通过高斯混合回归计算关于输入输出的条件概率（ $P$ ( $ξ^o_t$ | $ξ^I_t$ )）分布。计算该条件概率分布等价于估计输出分布 $N(u^o_t,Σ^o_t)$

对于普通的 $GMR$ ，进行高斯混合回归的步骤为:

将 GMM 的均值和方差拆成输入输出两部分
在这里插入图片描述计算条件概率 $P$ ( $ξ^o_t$ | $ξ^I_t$ )

假设 $\in (1,2....,L)$ ，那么 $L$ 代表示教数据轨迹长度，即每条轨迹有 $L$ 个数据点。上述步骤循环 $L$ 次，那么我们能得到 $L$ 个条件概率对应的正太分布 $P(\xi^o_t|\xi^I_t)=N(\xi^o_t |u^o_t,Σ^o_t)$ 等价 $N(u^o_t,Σ^o_t)$ ，计算每个正太分布的均值，就得到一条长为L的期望轨迹。

对于 $TP - GMR$ , 进行高斯混合回归

我们需要在循环L次的步骤上，再循环 $P$ 次， $P$ 代表坐标系个数，其索引为 $j$ 。那么我们能得到 $L \times P$ 个条件概率对应的正太分布 ( $N(u^{o,(j)}_{t},Σ^{o,(j)}_{t})$ ),为了方便表示我们去掉上标 $o$ ，其条件概率分布变为
$P(\xi^{o,(j)}_t|\xi^{I,(j)}_t)=P(\xi^{(j)}_t)=N(u^{(j)}_{t},Σ^{(j)}_{t})$

轨迹生成

自此我们得到了一个轨迹在起点系的分布，一个终点系的分布。TP-GMM的最终目的是生成带起点和终点位姿约束的可泛化的曲线。 $N(u^{(j)}_{t},Σ^{(j)}_{t})$ 仅代表各个坐标系（起点坐标系和终点）下的轨迹分布。为了生成带起点和终点位姿约束的曲线我们设计一种优化方法，即生成期望轨迹 $\hat \xi_{t,j}$ 与每个坐标系 $(j)$ 所期望的分布相一致，其目标函数设计为
$\hat \xi_t=arg\, min\sum^2_{j=1}(\hat \xi_{t,j}-\xi_{t,j})Σ^{(j)}_{t}(\hat \xi_{t,j}-\xi_{t,j})\\ \xi_{t,j}=A_{t,j}\xi^{(j)}_t+b_{t,j}$

$^*$ 需要注意的是我们要将所有数据换算到一个坐标系下才能使用 $\sum$ 符号，请注意此时的 $A_{t,j},b_{t,j}$ 由于坐标系是静态的，我们可以写成 $A_{j},b_{j} ,j=2$ ，这两坐标系就是我们需要 generalization 的轨迹的起点和终点

通过对上述方程求导并使其等于零，可以很容易地计算期望轨迹 ( $\hat \xi_t$ 即均值 $u_t$ ) ，用协方差定义的估计误差为 ( $Σ_t$ ) ，同样符合高斯分布 $N(u_t,Σ_t)$ 。具体计算为

将 $L \times P$ 个正太分布 ( $N(u^o_{t,j},Σ^o_{t,j})$ ) 中的均值和方差通过坐标变换从 $j$ 系变换到 $0$ 系,得 $N(u_{t,j}, Σ_{t,j})$ 。
$u_{t,j}=A_{j}u_t^{(j)}+b_{j} \quad , Σ_{t,j}=A_{j} Σ_t^{(j)} A^{-1}_{j}$
计算 $G a u ss ian$ $p ro d u c t$
$\begin{align*} N(u_t,Σ_t)∝\prod \limits_{j=0}^P N(u_{t,j}, Σ_{t,j}) \\ Σ_t=(\sum^P_{j=1}Σ_{t,j}^{-1})^{-1} \quad, \quad u_t=Σ_t\sum^P_{j=1} Σ_{t,j}^{-1}u_{t,j} \end{align*}$