论文阅读：《KNOWLEDGE-DRIVEN SCENE PRIORS FORSEMANTIC AUDIO-VISUAL EMBODIED NAVIGATION》基于知识驱动的场景先验语义视听导航

最新推荐文章于 2025-04-27 13:02:21 发布

帅你一脸的臭宝

最新推荐文章于 2025-04-27 13:02:21 发布

阅读量533

点赞数

文章标签：论文阅读

本文链接：https://blog.csdn.net/weixin_45800242/article/details/130836567

版权

需要关注的信息：知识驱动的场景先验、语义视听导航（semantic audio-visual navigation，SAVi）

SAVi任务定义

智能体在3D环境中的任意一个位置进行初始化，基于音频和视觉信号导航到发生物体。与audio-visual navigation任务不同的是，声音信号可以在智能体进行导航的过程中停止。因此，需要智能体可以理解视觉和听觉的语义信息，推理出可以在哪里搜索发生对象。如上图所示，智能体听到洗衣机的声音，并且决定在浴室附近导航，以搜索洗衣机。（2021年CVPR提出的新任务《Semantic audio-visual navigation.》）

SAVi任务有两个假设：

1、目标声音在一个episode中具有可变的长度，并且在每个时间步不一定都有用；声音在导航过程中可能停止。

2、发声物体在场景中具有物理和语义上的意义。例如：卧室里听到飞机的声音，不代表卧室里有飞机在。

由于声音的可变长度性质，智能体不能完全依赖于音频信号来到达发声对象：相反，智能体必须使用音频信号来预测发声对象的位置以及理解对象的语义。此外，智能体需要将其视觉提示与关于对象和区域关系的声音和原因相关联，以便有效地导航。

待解决的问题

在具身导航任务中，泛化到未见过的上下文是一个挑战。在SAVi任务中，泛化包括泛化到没见过的室内视觉场景和泛化到未听过的声音对象。

本文思路

人类在进行导航时，会在看不见或者是部分可观测的环境中使用一些先验知识，比方说在室内场景中对象可能存放的位置，这些对象发出的声音的属性或者是对象与对象、对象与场景之间的语义关系。

外部知识可以在实验时提高智能体的采样效率，在推理过程中对未知环境的概括以及在决策过程中的整体可解释性。具身智能体也应该具备使用外部知识的能力，可以直观地了解物体如何放置在房屋的不同区域。但是通过将知识注入具身智能来找到可概括性解决方案的目标依旧很难。

视听导航任务特别适合于使用领域知识，例如，某些声音可以与特定地点相关联，烟雾报警器更可能源自厨房。为了从环境中的声音中推断出这样的语义信息，我们提出了知识增强先验的想法。通过使用先前丰富的通用经验，也可以将学习的模型推广到新的声源。

本文工作

1、使用了知识驱动的场景先验：编码了object-region关系，来自双图编码器网络的空间知识，一系列预训练任务的背景知识。

2、定义了一个知识图谱，包括object-object、object-region和region-region的关系。本文是第一个在视听导航中研究基于知识驱动的场景先验的工作。

3、构建了一个多模态数据集，用于预训练视觉编码器，以鼓励视觉场景理解中的对象感知。

4、定义了一个新的任务：语义视听导航。

问题描述

本文扩展了SAVi任务，评估智能体对未听过的发声物体进行导航的性能。

在最初的任务中，智能体对已知的发声对象的未知clips进行评估。在本文的任务中，对完全未知的发声对象进行评估。

考虑一组发声对象 $O$ ，一组室内区域 $R$ （例如：卫生间、卧室等）和一组房屋 $H$ 。一个特定的房子 $h_i\in{H}$ ，该房子具有一组区域 $\{r_{i1},r_{i2},...,r_{ij}\}$ 和一组物体 $\{o_{i1},o_{i2},...,o_{ik}\}$ 。其中房间 $h_i$ 的第 $j$ 个区域拥有 $k$ 个物体。将所有的房间 $H$ 分成两个子集： $H_{seen}$ 和 $H_{unseen}$ ，将所有的发声物体 $O$ 分为 $O_{heard}$ 和 $O_{unheard}$ 。在训练过程中，使用的是 $H_{seen}$ 和 $O_{heard}$ 。

为了解决这个任务，智能体必须学会根据先验知识对未听过的声音进行推理。我们的工作旨在使智能体能够到达它们以前从未听过的发声物体。

模型细节

本文的方法将先验知识以知识图谱的形式进行表示，并且使用Graph Encoder Networks（GEN）来提取音频和视觉模态的关系特征。GENs为智能体提供推理能力，使用先验知识，并根据新的观察动态更新他们的beliefs。同时，我们的模型结合了Scene Memory Transformer（SMT），通过记录记忆中的视觉特征来捕捉长期依赖，并通过关注声学特征来定位目标。我们通过将基于视觉的语义知识向量与视觉编码器表示相结合来计算视觉特征。类似地，我们使用音频观测，结合基于音频的语义知识向量、从音频编码器编码的特征和位置预测，来计算声学特征。

因此，使用GENS的先验知识驱动推理能力和使用SMT的基于记忆的注意机制允许Agent泛化到新的房屋和发声对象，利用时空依赖性，并有效地导航到目标。

模型分为六个部分：1）预先训练的模型，根据来自环境的视听观察，预测物体和区域； 2）计算音频语义和视觉语义特征嵌入的图形编码器网络； 3）视觉编码器，将每一步的视觉观察投射到嵌入空间； 4）音频编码器，将每一步的音频观测投影到嵌入空间； 5）位置预测器，给定来自探测对象的声信号，预测其与智能体的相对距离和方向； 6）场景记忆转换器，使用基于注意力的策略网络，该网络计算动作的分布，给定场景记忆中的编码观察和捕捉目标信息的声学观察。

图（a）

视觉观测 $v_t$ 被送到了两个模块中：视觉编码器 $f_e^v$ 和预训练视觉模型 $f_c^v$ 。前者对视觉观测进行编码，后者根据视觉观测预测物体和区域的分数 $c_t^v$ 。

音频观测 $b_t$ 被送到了三个模块中：音频编码器 $f_e^b$ ，编码音频的观测，位置预测器 $f_{loc}^b$ ，预测相对于智能体的发声物体的距离和方向 $l_t$ 以及直接混响比 $\delta_t$ ，预训练的音频模型 $f_c^b$ ，根据视频观测，预测物体的分类分数 $c_t^b$ 。这些分数被基于音频的图形编码器网络 $GEN^b$ 用来计算音频语义特征嵌入。

$f_e^v$ 、 $GEN^v$ 和 $f_e^b$ 的输出、智能体的位姿 $p_t$ 和上一个动作 $a_{t-1}$ 被存储记忆模块M中。

基于注意力的策略网络经过编码器得到的信息 $M_e$ ，融合了视觉和听觉的信息。

图（b）

GEN网络

每个顶点表示一个对象或者区域类别。输入到 $GEN^v$ 中的初始顶点特征用联合嵌入初始化，联合嵌入是通过将对象或区域名称的词嵌入（使用glove）和基于当前观测的对象和区域的分类得分串联而获得的。

$GEN^v$ 通过3层进行信息传播， $GEN^v$ 的输出是空间和语义感知嵌入。

基于音频的 $GEN^b$ 使用 $f_c^b$ 和genb来代替 $f_c^v$ 和 $GEN^v$ 。

Modular Pre-training

根据来自环境的视觉和听觉的观测，预测物体和区域。

在我们的任务中，智能体根据音频来设定目标，并且使用视觉观测导航到该目标。智能体必须检测给定观测中的对象和区域。因此，我们训练音频分类模型 $f_c^b$ 来预测每个对象 $o\in{O}$ 的得分，这个得分表示物体 $o$ 发声的可能性。训练视觉分类模型 $f_c^v$ 预测每个对象 $o\in{O}$ 和区域 $r\in{R}$ 的得分，这个得分表示当前观测对应于区域 $r$ 的可能性。

由于声音时间具有可变的长度，并且可能不会存在于每个时间步，因此，智能体不能单独依赖当前音频观察作为持久信号。所以，将当前的预测 $\hat{c_i^b}$ 和先前的预测 $c_{t-1}^b$ 聚合起来。当声音时间停止的时候，智能体使用最新的估计 $c_t^b$ 。

Knowledge graph construction

我们的知识图谱捕捉object-object、object-region和region-region的语义关系。这种关于物体如何放置在房屋区域的先验知识使智能体能够推理出在哪里可以找到听起来新颖的物体以进行有效的导航；更准确地说，这种先验知识能够实现sound→object→region的推理路径，这对于音频条件下的视觉导航任务至关重要。例如，假设一把椅子发出的吱吱声对智能体来说是新奇的，并且它知道椅子通常放在靠近桌子或垫子的地方，并在卧室或办公室里找到。在这种情况下，它可能决定导航到通常有椅子和物体通常放在椅子附近的区域，这将导致比不知道物体和区域之间的空间和语义关系更快地找到椅子。

我们的知识图谱由无向图 $G=(V,E)$ 表示，其中 $V$ 和 $E$ 分别表示顶点和边。每个顶点表示一个对象或区域，每个边表示一对顶点之间的关系。为了计算这些关系，我们使用MatterPort3D数据集，因为它包含了42个对象和90个房屋的30个区域的语义标签。我们只使用21个对象和24个区域(V=45)，它们在最初的Savi任务中使用（Chen et al.，2021a)来构建知识图谱。

更具体地说，如果在同一区域发现两个物体，并且它们的出现频率高于阈值，则它们用边相连。如果对象频繁地存在于各个区域中，则将对象与另一对象连接。类似地，如果一个区域与另一个区域中放置了相似的对象，则将它们连接起来。

Location Prediction and Direct-to-Reverberant Ratio Estimation

音频观察包含关于从智能体到发声对象的相对距离和方向的信息。因此，训练位置预测器 $f_{loc}^b$ 去预测相对于当前智能体的位姿 $p_t$ 的位置 $\hat{l_t}=(\Delta{x},\Delta{y})$ ,以及声源和智能体之间的脉冲响应的直接混响比DRR（[0，1]）。与预训练的音频模型类似，我们的位置预测也聚合了当前的估计 $\hat{l_t}$ 和上一个 $l_{t-1}$ 。其中 $f_p(.)$ 基于最近的一个姿态变换 $\Delta{}p_t$ 和上一时刻的 $l_{t-1}$ 进行转换。当声学事件停止时，智能体使用最新的估计 $l_t=f_p(l_{t-1},\Delta{p_t})$ 。

注意，DRR预测也用作辅助任务，因为它将帮助智能体更好地估计探测对象的直接性和位置。事实上，DRR提供了声源和智能体之间的声学距离的间接测量，与声源的声级无关。在训练时，我们根据声源和智能体之间的房间脉冲响应（RIR）构建δt的真值，作为峰值后前10 ms内的RIR能量与RIR的总能量之间的比率。因此，δt可以直接测量发声对象和智能体之间的声传播：当智能体原理声源时，δt趋于0;随着智能体越来越接近声源，δt增加。当声源无声时，δt等于0;因此，基于双耳声音本身，δt预测位置预测的可信度。

Encoder Networks

整个策略网络基于transformer架构。这个架构把观测存储在 $M$ 中。M中编码的视觉观测为 $e_t^O=[e_t^v,e_t^{v-gen},p_t,a_{t-1}]$ ，（这里和论文画的图有所出入）其中 $e_t^v=f_e^v(v_t)$ ， $e_t^{t-gen}=GEN^v(f_c^v({v_t}))$ ， $p_t$ 是智能体在当前的episode中相对于起始位置 $p_0$ 的位置和方向 $(x,y,\theta)$ ， $a_{t-1}$ 是前一时刻的动作。模型中存储着t时刻之前的全部观测： $M=[e_i^O:i=max\{i=0,t-S_M\},...,t]$ ，其中 $S_M$ 是存储模块的大小。 $M$ 的大小是存储在存储器 $M$ 中的基于视觉的知识向量的大小。

Transformer使用迄今为止在episode中存储的全部M，利用自注意机制对这些视觉观察嵌入进行编码，得到 $M_e=Encoder(M)$ 。

然后，使用音频嵌入，解码器计算状态表示 $s_t=Decoder(M_e,e_t^{b-gen},l_t^b)$ ，（这里和论文画的图有所出入）其中 $e_t^{b-gen}=GEN^b(f_c^b(b_t))$ 。

使用注意力机制，智能体可以捕获声学驱动的目标预测和视觉观察之间的长时空关联，并且，可以保存到达目标的最相关的信息。

Learning and Optimisation

为了训练视觉分类模型 $f_c^v$ ，我们使用85个MP3D数据集的房间构造了一个数据集。该数据集由82828张图像组成，每个图像对应于SoundSpaces中的位置和旋转角度。每张图像具有128 x 128分辨率和4种模态：RGB图像、深度图像、对象语义图像和区域语义图像。

我们使用二进制交叉熵损失优化视觉分类模型，并将其训练为标准的多标签分类器。

为了训练音频分类模型 $f_b^c$ ，我们基于SoundSpaces，使用不同的声源和接收器位置，生成了1.5M的声谱图。每个声谱图对应于85个MP3D房屋中的一个发声对象。我们将探测目标视为一个多类分类问题，并利用交叉熵损失对音频分类模型进行优化。我们的视觉分类模型以一幅RGB图像为输入，音频分类模型以1秒的声音片段为输入，两幅65×26的双耳频谱图为输入。

我们使用在ImageNet上预先训练的Resnet-18架构训练视觉和音频分类模型。视觉分类模型预测21个对象和24个区域的得分，音频分类模型预测21个对象的得分。这些模型在策略优化之前进行了预先训练，并在策略优化期间被冻结。在本文中，当我们使用MP3D来训练这些分类模型时，我们认为我们的模块也可以在其他提供对象和区域语义标签的房屋环境中训练。

对于位置预测器 $f_{loc}^b$ ，我们使用一个简化的Resnet-18结构，并使用相同的经验将其与策略联合训练。我们使用均方误差损失优化位置预测器，并以与策略网络相同的频率更新它。

我们使用分布式的PPO（DDPPO）算法训练策略网络。DDPPO算法包含价值网络损失、策略网络损失和熵损失组成，以鼓励探索。我们采用了Fang（2019）等人提出的两阶段训练程序。有效地训练了视觉网络 $(f_e^v,GEN^v)$ 。在第一阶段，通过设置内存大小 $S_M=1$ 和存储最新的观测嵌入来无注意地训练SMT策略。在第二阶段，将存储器大小设置为 $S_M=150$ ，并冻结视觉网络的参数。视觉编码器 $f_e^v$ 的输入是64×64RGB，深度图像从中心裁剪。我们使用Adam优化了我们的模型，使用PyTorch，策略网络的学习速率为 $2.5*10^{-4}$ ，预训练音频和视觉网络的学习速率为 $1*10^{-3}$ 。

实验

Simulator and semantic sounds

模拟器：Soundspaces中的MP3D数据集。我们使用21个物体类别，并且这些物体分布在85个房间的24个区域内。

在选择音频时间的持续时间时，首先，我们从均值为15、标准差为9的正态分布中采样一个值，然后剪辑这个值，将持续时间限制在5到500秒之间。

动作空间4个：前进、左转、右转、停止。

4个感官输入：双耳频谱图、RGB图像、深度图、智能体相对于开始姿态的当前姿态。

Rewards

当Agent到达目标时，它会得到+10的稀疏奖励；当Agent减少到目标的测地线距离时，它会得到+1的密集奖励；当Agent增加到目标的测地线距离时，它会得到等效的负奖励。为了鼓励轨迹效率，我们还为每个时间步分配了-0.01的奖励。为了避免容易达到目标的较简单的事件（如直线路径或短距离），我们在对事件进行采样时使用了两个条件：1）测地距离与欧几里得距离的比值必须大于1.1； 2）从起始位置到目标位置的测地线距离必须大于4米。

Baselines

1、random walk：以0.33的概率对三个导航动作中的一个进行均匀采样，或者以0.01的概率停止。当智能体的位置在目标探测对象半径1米以内，或者智能体采取的步骤超过500步时，模拟器也会自动执行停止。

2、AudioGoal：SoundSpaces的方法

3、SAVi：提出这个任务的基准方法

评估指标

68个见过的房子，17个没见过的。16个听过的声音，5个没听过的声音。

实验结果

定量结果讨论

消融实验

评估SMT和DRR对于智能体性能的影响。

结果表明，我们的Agent确实能够将视觉线索与声音语义联系起来，并利用先验知识驱动的推理能力来概括新的声音和新的环境，从而有效地导航。此外，在Sene-House/Heard-Sounds的情况下，only-GenV在大多数指标上都优于其他模型，这表明GenV对我们的模型的性能有相对更显著的影响。然而，完全依赖only-genv将无法使智能体有效地导航到未听过的声音。我们通过比较K-Saven-Full模型和K-Saven-Drr模型，前者使用δt=0.5,t（指数平均值）,后者使用估计的Drr作为δt（动态平均值），来评估使用估计的Drr作为位置信念更新的权重的影响，其中K-Saven-Full模型和K-Saven模型都是+δt的，前者使用δt=0.5,t（指数平均值）,后者使用估计的Drr作为δt（动态平均值）。与使用动态估计的加权因子δT相比，整个模型在一定程度上实现了更好的性能。我们的直觉是，DRR估计作为位置预测器的辅助任务会导致更好的LT估计，因为DRR作为到源距离估计的代理。然而，估计的δT不够可靠，无法在整个事件中提供一致的加权方案，因此δT=0.5的指数平均值提供了更好的整体性能。

在听到声音的情况下，智能体对声音是熟悉的，所以视觉推理更重要。only-GENv和Both -GENs都有GENv;因此，它们的表现都比only- genb好，而only- genv的表现略好于both- gens，因为only- genv迫使智能体只能基于视觉进行推理。如SH/HS情况下，only-GENb的成功率(SR)为64.4，only-GENv的成功率(SR)为73.2，both-GENs的成功率(SR)为73.0。在UH/HS病例中，only-GENb为31.7，only-GENv的SR为29.7，both-GENs的SR均为30.5。同样，在听不到声音的情况下，智能体不熟悉声音，所以声音推理更重要。only-GENb和both-GENs都只有only-GENb，因此，它们的性能都优于only-GENv。此外，有效地将GENs引入的推理能力、位置预测和分类模型结合起来是至关重要的。我们的完整模型在大多数消融的情况下表现得更好，表明我们的智能体可以利用基于记忆的注意机制和使用GENs的推理能力，从SMT中归纳出听过和没听过的声音。

定性结果讨论

图3：导航轨迹的可视化。从行的角度来看，我们展示了K-Saven和Savi在UH/US集的两集的轨迹和自我中心观点。 (a)、(d):事件的开始，与开始的姿势和视图的智能体和目标发声对象。 (b)、(e):K-Saven的视觉结果以及SPL/SR指标。 (c),(f)：SAVI的视觉结果连同SPL/SR。