论文简读《Selective Visual Representations Improve Convergence and Generalization for Embodied AI》

RJnet

已于 2024-05-23 09:11:00 修改

阅读量251

点赞数 3

分类专栏：论文阅读笔记文章标签：人工智能论文阅读深度学习

于 2024-05-22 16:16:14 首次发布

本文链接：https://blog.csdn.net/weixin_44879707/article/details/139122285

版权

论文阅读笔记专栏收录该内容

8 篇文章 0 订阅

订阅专栏

主页

摘要

具身智能模型通常使用现成的视觉主干，如CLIP，来编码它们的视觉观察。虽然这种通用表示编码了关于场景的丰富的语法和语义信息，但大部分信息往往与手头的特定任务无关。这些无关信息会在学习过程中引入噪声，并分散主体对与任务相关的视觉线索的注意力。受人类选择性注意的启发——人们根据自己的经验、知识和手头的任务来过滤自己的感知的过程——我们引入了一种参数高效的方法来过滤具身人工智能的视觉刺激。我们的方法使用一个小的可学习codebook模块产生了一个任务条件的瓶颈。该代码本被联合训练以优化任务奖励，并作为任务条件选择性过滤器。我们的实验展示了在5个基准测试的对象目标导航和对象位移的最先进性能。

动机

人类的视觉感知远不是被动地接受所有可用的视觉刺激；它是一种主动调节的机制，有选择性地运作，分配注意力和处理被认为与当前任务相关的刺激。

这种现象的一个说明性例子是常见的找钥匙的体验；我们随后会无视环境中的大多数视觉线索，除了那些与寻找丢失的钥匙直接相关的线索。在这种情况下，我们会特别注意我们通常放置钥匙的表面，并通过类似地处理我们周围可行走的区域来导航我们的环境。

目前的视觉编码器E从视觉输入中获取了大量的细节，并决定下一步要采取哪个操作。考虑到E的通用性质，它通常包含大量与任务无关的信息。例如，要在房子中找到一个特定的对象，代理不需要知道代理的对象中的其他干扰对象，如它们的颜色，材料，属性等。这些干扰在学习过程中引入了不必要的噪音，分散了主体对更相关的视觉线索的注意力。

方法

本文提出了一个codebook模块，过滤一些视觉无关的信息。从而，视觉编码器和codebook专注于从视觉输入中提取任务的基本信息，而策略可以专注于采取在这些过滤信息条件下的行动。

我们设计的codebook为一个参数高效的模块，将E的特征转换为一个紧凑的任务-bottlenecked模块。该模块输入E并生成一个紧凑的 $\widehat{E}$ ，由attention进行加权。该模块包含的code，被定义为一组潜在向量C = [c1，c2，...，cK]，其中K表示码本的大小，D为每个潜在码c的维数，会对中间特征进行加权，这些code通过正态分布进行随机初始化，并与整体训练算法一起进行优化。为了创建一个强大的bottleneck，我们设置了Dc = 10和K = 256。

实验

RJnet

关注

3
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
论文简读《Selective Visual Representations Improve Convergence and Generalization for Embodied AI》

具身智能模型通常使用现成的视觉主干，如CLIP，来编码它们的视觉观察。虽然这种通用表示编码了关于场景的丰富的语法和语义信息，但大部分信息往往与手头的特定任务无关。这些无关信息会在学习过程中引入噪声，并分散主体对与任务相关的视觉线索的注意力。受人类选择性注意的启发——人们根据自己的经验、知识和手头的任务来过滤自己的感知的过程——我们引入了一种参数高效的方法来过滤具身人工智能的视觉刺激。我们的方法使用一个小的可学习codebook模块产生了一个任务条件的瓶颈。
复制链接

扫一扫