论文简读《Selective Visual Representations Improve Convergence and Generalization for Embodied AI》

主页

摘要

具身智能模型通常使用现成的视觉主干,如CLIP,来编码它们的视觉观察。虽然这种通用表示编码了关于场景的丰富的语法和语义信息,但大部分信息往往与手头的特定任务无关。这些无关信息会在学习过程中引入噪声,并分散主体对与任务相关的视觉线索的注意力。受人类选择性注意的启发——人们根据自己的经验、知识和手头的任务来过滤自己的感知的过程——我们引入了一种参数高效的方法来过滤具身人工智能的视觉刺激。我们的方法使用一个小的可学习codebook模块产生了一个任务条件的瓶颈。该代码本被联合训练以优化任务奖励,并作为任务条件选择性过滤器。我们的实验展示了在5个基准测试的对象目标导航和对象位移的最先进性能。

动机

人类的视觉感知远不是被动地接受所有可用的视觉刺激;它是一种主动调节的机制,有选择性地运作,分配注意力和处理被认为与当前任务相关的刺激。

这种现象的一个说明性例子是常见的找钥匙的体验;我们随后会无视环境中的大多数视觉线索,除了那些与寻找丢失的钥匙直接相关的线索。在这种情况下,我们会特别注意我们通常放置钥匙的表面,并通过类似地处理我们周围可行走的区域来导航我们的环境。

目前的视觉编码器E从视觉输入中获取了大量的细节,并决定下一步要采取哪个操作。考虑到E的通用性质,它通常包含大量与任务无关的信息。例如,要在房子中找到一个特定的对象,代理不需要知道代理的对象中的其他干扰对象,如它们的颜色,材料,属性等。这些干扰在学习过程中引入了不必要的噪音,分散了主体对更相关的视觉线索的注意力。

方法

本文提出了一个codebook模块,过滤一些视觉无关的信息。从而,视觉编码器和codebook专注于从视觉输入中提取任务的基本信息,而策略可以专注于采取在这些过滤信息条件下的行动。

我们设计的codebook为一个参数高效的模块,将E的特征转换为一个紧凑的任务-bottlenecked模块。该模块输入E并生成一个紧凑的\widehat{E},由attention进行加权。该模块包含的code,被定义为一组潜在向量C = [c1,c2,...,cK],其中K表示码本的大小,D为每个潜在码c的维数,会对中间特征进行加权,这些code通过正态分布进行随机初始化,并与整体训练算法一起进行优化。为了创建一个强大的bottleneck,我们设置了Dc = 10和K = 256。

实验

  • 3
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值