利用潜动作进行行为生成

254 篇文章 0 订阅
208 篇文章 0 订阅

24年3月来自纽约大学、韩国首尔大学和的论文“Behavior Generation with Latent Actions”。

从标记数据集生成复杂行为的生成模型,一直是决策领域的一个长期问题。与语言或图像生成不同,决策需要对动作进行建模——连续值向量,这些向量在分布上是多模态的,可能来自未经整理的来源,而生成错误可能会在顺序预测中加剧。最近出现的一类模型称为行为Transformer (BeT),它通过 k -均值聚类来离散化动作,捕获不同的模式,从而解决这一问题。然而,k -均值难以扩展到高维动作空间或长序列,并且缺乏梯度信息,因此 BeT 在建模长距离动作方面存在问题。这项工作提出矢量量化行为Transformer (VQ-BeT),这是一种用于行为生成的多功能模型,可处理多模态动作预测、条件生成和部分观察。VQ-BeT 通过使用分层矢量量化模块对连续动作进行token化来增强 BeT。在模拟操作、自动驾驶和机器人等七种环境中,VQ-BeT 改进 BeT 和扩散策略等最先进的模型。VQ-BeT 改进捕捉行为模式的能力,同时推理速度比扩散策略快 5 倍。

行为Transformer (Shafiullah,2022) 和条件行为Transformer (Cui,2022) 分别是两种建立在类似 GPT 的Transformer架构之上的无条件和目标条件行为克隆算法。在各自的设置中,它们展示了处理数据集的时间相关性以及行为中存在多种模式的能力。虽然 GPT (Brown,2020) 本身从离散域映射到离散域,但 BeT 可以通过巧妙的token化技巧处理多模态连续输出空间。在训练之前,BeT 会学习一种基于 k- 均值的编码器/解码器,该编码器/解码器可以将连续动作转换为一个离散和一个连续分量。然后,通过学习离散分量的分类分布,并将分量均值与预测的连续“偏移”变量相结合,BeT 可以在功能上学习数据的多种模式,同时每种模式保持连续。虽然token化器允许 BeT 处理多模态动作,但使用 k- 均值意味着,选择一个好的 k 值对于此类算法非常重要。具体来说,如果 k 太小,则多种动作模式将被委托给同一个 bin,如果 k 太大,则一种模式将被拆分成多个 bin,这两种情况都可能导致次优策略。此外,当动作具有大量(可能相关的)维度时,例如在执行动作分块时(Zhao,2023),k -均值等非参数算法可能无法捕捉数据分布的细微差别。BeT 和 C-BeT 中使用的token化存在的缺点,是工作的主要灵感之一。

为了token化连续动作,采用残差矢量量化 (Zeghidour et al., 2021) 作为一个离散化的颈干。残差 VQ 是一个多阶段矢量量化器 (Vasuki & Vanathi, 2006),它用来自有限层码本的矢量之和去替换原始 VQ-VAE (Van Den Oord et al., 2017) 的每个嵌入。

VQ-BeT包括 2 步:动作离散化(token化)和模型学习,如图所示:

请添加图片描述

token化通过residual VQ。在训练残差 VQ 之后,训练类似 GPT 的 Transformer 架构来模拟来自观察序列的动作或动作块的概率分布。
为了提供一种通用的行为学习模型,该模型可以预测条件和无条件任务中的多模态连续动作,引入 VQ-BeT 的条件和非条件任务公式。
实验中,用各种环境和数据集来评估 VQ-BeT(如图所示)。在模拟环境中,在八个基准上评估 VQ-BeT 的更广泛适用性;即六个操作任务,包括两个基于图像的任务:(a)PushT、(b)Image PushT、(c)Kitchen、(d)Image Kitchen、(e)UR3 BlockPush、(f)BlockPush;一个运动任务,(g)Multimodal Ant;以及一个自动驾驶基准,(h)NuScenes。各种环境在图中进行了可视化。

请添加图片描述

此外还在真实环境中进行评估,包含十二个任务(五个单步任务、三个多步任务和四个长期任务)。如图所示:
请添加图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值