
论文简读《Selective Visual Representations Improve Convergence and Generalization for Embodied AI》
具身智能模型通常使用现成的视觉主干,如CLIP,来编码它们的视觉观察。虽然这种通用表示编码了关于场景的丰富的语法和语义信息,但大部分信息往往与手头的特定任务无关。这些无关信息会在学习过程中引入噪声,并分散主体对与任务相关的视觉线索的注意力。受人类选择性注意的启发——人们根据自己的经验、知识和手头的任务来过滤自己的感知的过程——我们引入了一种参数高效的方法来过滤具身人工智能的视觉刺激。我们的方法使用一个小的可学习codebook模块产生了一个任务条件的瓶颈。














