论文阅读：SoundSpaces: Audio-Visual Navigationin 3D Environments

最新推荐文章于 2024-09-16 00:03:40 发布

帅你一脸的臭宝

最新推荐文章于 2024-09-16 00:03:40 发布

阅读量433

点赞数

文章标签：论文阅读

本文链接：https://blog.csdn.net/weixin_45800242/article/details/130094376

版权

文章提出了视听导航任务，结合视觉和听觉信息，使用深度强化学习训练智能体在3D环境中导航。SoundSpaces是一个新的平台，提供真实感的音频渲染。研究显示，音频能提供关于目标位置和环境的补充信息，提高导航效率，且智能体能泛化到新环境和声音源。

摘要由CSDN通过智能技术生成

ECCV 2020

引言

视听导航任务：通过视觉和听觉，智能体必须学会导航到一个发生的物体。

应用场景：洗衣机发出响声可能表示洗衣完毕，哭闹的孩子需要引起我们的注意，打碎玻璃的声音可能需要紧急帮助。

目前的导航模型只是将视觉和移动紧密的结合起来，但是却对他们周围的世界充耳不闻。声音是理解物理空间和定位发出声音的目标的关键。声音的反馈部分的揭示了空间的几何形状、遮挡物体的存在、物体表面的材料，这些都可以作为视觉流的补充。其次，目前在可视范围之外的目标可能只能通过其声音（例如楼上有人打电话、沙发遮挡的电话铃声、从后面靠近的脚步声）来探测。最后，当视觉提示不可靠（例如，灯光闪烁）或与智能体的任务有冲突（例如，有瓦砾的救援现场破坏了先前的视觉环境）时，听觉信息变得至关重要。

在以上因素的推动下，本文引入了视听导航任务（应该是在这个方向的第一个工作）。要求智能体在试图到达目标时既能看到又能听到。关于导航任务有两个变体：AudioGoal，寻找不在智能体视野中的发声物体。AudioPointGoal，是PointGoal导航的扩展，知道发声源和位置。

我们提出了一种多模态深度强化学习(RL)方法，从视听观测流中端到端地训练导航策略。并且在MatterPort3D和Replica中引入提前计算的音频渲染SoundSpaces。

如上图所示，音频强度的变化与最短路径距离有关。我们的音频可以支持智能体获得了关于目标的丰富的方向信息。声音还揭示了房间的几何形状、主要结构和材料。 注意Agent到达目标必须使用的测地线路径（不同于最短的欧几里得路径，它会穿过内壁）上的场的梯度。 因此，提出的agent享受两种模式的协同作用：音频显示门作为一个良好的中间目标，而视觉显示沿路径的物理障碍，如左边房间的家具。

本文的主要贡献：

1、提出了在三维环境中智能体的视听导航任务；

2、提出了一个多模态深度强化学习方法，学习视觉和音频的是观测流，证明了该模型对导航的影响，达到了SOTA的效果。

3、提出了SoundSpaces平台。对Habitat平台上的MatterPort3D和Replica的103个环境进行了声音渲染。允许插入任意声源，并从任意智能体接收器位置正确地感知它。

4、为视听导航任务指定了一系列的benchmark。

SoundSpaces: Enabling Audio in Habitat

本文使用85个Matterport3D环境，该环境为基于真实的世界，平均占地517平方米。Replica是一个包含18个公寓、酒店、办公室和房间场景的三维网格数据集。通过将这些与Habitat兼容的3D资产扩展到我们的音频模拟器中，我们使用户能够利用高效的Habitat API，轻松地采用音频模式进行AI Agent训练。我们的音频平台和数据是公开共享的。

对于每个场景，我们通过预先计算房间脉冲响应(RIR)来模拟环境的声学。 RIR是声源和麦克风之间的传递函数，它随房间几何形状、材料和声源位置的变化而变化。

在SoundSpace中，分别存在N个可能的声音源S和听者L。在Replica数据集和MatterPort3D数据集上分别隔0.5米和1米进行密集采集，最后Replica采了38-566个点，Matterport3D采了20-2103个点。点被放置在1.5米的垂直高度，反映了一个机器人智能体的固定高度。然后，我们模拟RIR对于每个可能的声源和听者放置在这些位置，S×L。这样，我们就可以通过将所需的波形与所选的RIR进行卷积，在运行中查找任何声源和听者对并渲染声音。

如上图所示，我们在图示的网格中捕捉每个位置对之间的房间脉冲响应（这里是Replica中的“FRI_apartment_0”场景）。在我们的平台中，智能体可以在密集采样的位置L用黑点标记体验双耳音频--听到声音的强度、方向和频率纹理。 HeatMaps显示音频压力场，从红色下降到蓝色。左：当S中的一个声源放在中心时。右图：当一个源放在楼梯上时。注意当声源移动时，智能体在不同位置接收到的声音是如何变化的，以及3D结构如何影响声音的传播。

对于放置在任意位置的声源，智能体都可以在任何位置听到环绕立体声。双耳音频以表示一个具有两个类似人类的耳朵的智能体，对他来说，感知的声音取决于身体在场景中的相对方位。*=我们的平台还允许呈现多个同时的声音。

由于实施例的限制（例如，不能在沙发上攀爬），智能体可能无法站在L中的每个位置，我们创建了一个图来捕获这些位置的可达性和连通性。首先删除不可导航的节点，然后对于每个节点对(i，j)，我们认为边e(i，j)是有效的，当且仅当i和j之间的欧几里得距离对于Replica是0.5米，对于Matterport是1m（即节点i和j是近邻），并且它们之间的测地线和欧几里得距离相等（即两者之间没有障碍物）。

视听导航任务定义（本文假设整个episode中的发生物体不断地发出声音）

本文提出了两种新的导航任务：AudioGoal导航和AudioPointGoal导航。在AudioGoal中，智能体可以听到发声物体发出的声音（例如：电话铃声），但是却不知道发声物体的具体位置。 AudioPointGoal是PointGoal任务的音频扩展，其中Agent听到发声源并被告知其从起始位置的位移。在这三个任务中，为了导航和避开障碍物，智能体需要单独使用感官输入到达目标。也就是说，不向智能体提供场景的地图。

任务定义

PointGoal：

给出了目标点的位置（x，y，z），智能体在一个环境中随机初始化，初始位置为（0，0，0）,智能体需要导航到该位置

AudioGoal：

智能体并不知道发声物体位置，需要导航找到该发声物体。其中，音频会根据智能体的位置、发声物体的位置和房间的结构以及材料不断更新。

AudioPointGoal：

该任务为AudioGoal和PointGoal任务中接收到的信息的结合，智能体知道发声物体的具体位置。

注意，物理障碍（墙壁、家具）通常沿着位移矢量存在，智能体在导航时必须感知到这些障碍。

动作空间

moveforward、turnleft、turnright、stop。其中当节点和节点之间没有边的时候，moveforward动作无效。对于所有模型，没有驱动噪声。

传感器

模型输入为：双耳声音（点导航没有）、GPS（声音导航没有）、RGB图像和深度图。为了捕捉双耳空间声音，模拟人类高度为智能体放了两个麦克风。

Episode

PointGoal的一个episode由任意的场景、智能体开始位置、智能体开始旋转和目标位置来定义。在每个episode中，如果智能体成功导航，它就可以到达目标。用于AudioGoal和AudioPointGoal的episode还包括源音频波形。该波形与对应于特定场景、目标、Agent位置和方位的RIR进行卷积，为Agent生成动态音频。我们考虑各种音频源，既有智能体熟悉的，也有智能体不熟悉的。如果智能体执行停止动作时正好处于目标位置，则一个episode成功。允许智能体对所有任务执行500个动作。

导航网络和训练

模型输入

左右耳的声音频谱图：取前1000ms的音频作为输入，通过短时傅里叶变换以及下采样，将左右耳频道通道矩阵叠加得到一个65*65*2和一个65*26*2的张量，记为A。

视觉输入（V）：RGB和/或Depth图像，分别为128*128*3和128*128*1的张量。其中，128是智能体90°视野的图像分辨率。

相对位移向量：Δ = (Δx,Δy) 在场景的 2D 地平面中从智能体指向目标。

智能体接收这三个输入（音频、视频、位置矢量）中的哪一个特定子集取决于智能体的传感器和具体的目标。通过策略网络，感知输入被转换成行为空间上的概率分布。

模型网络框架

处理视觉信息和频谱图信息的CNN网络参数不同，结构相同，即CONV8×8、CONV4×4、CONV3×3和线性层，每层之间有RELU激活。 CNNs的输出分别是长度为La和Lv的向量Fa(A)和Fv(v)。它们被连接到相对位移向量上来，并由门控递归单元(GRU)进行变换。 GRU对当前步骤的输入以及状态ht-1的累积历史进行操作。 GRU将历史更新为Ht，并输出智能体状态Ot的表示。最后，利用模型的actor-critic网络估计了状态Vθ(Ot，Ht-1)和策略分布πθ(At|Ot，Ht-1)的值。两者都是线性层。

La，Lv，LΔ，Ls（Ls为最终状态的值）分别为：512，512，2，1026

GRU为双向GRU，输入大小为512，隐藏大小为512。使用了一个递归层。

使用Adam进行优化，学习率为2.5e-4，使用0.99的衰减折扣奖励。

在Replica和Matterport3D上分别训练了30m和60m的Agent步数，分别相当于105和210 GPU小时。

训练

我们用近端策略优化(PPO)训练网络。智能体因迅速达到目标而得到奖励。具体地说，在目标位置执行STOP将获得+10的奖励，每一个时间步将获得-0.01的负奖励，减少到目标的测地距离将获得+1的奖励，增加到目标的测地距离将获得同等的惩罚。为了更好地探索行动空间，我们在累积奖励优化中加入了熵最大化项。（熵最大化的模型认为是最优的）

Synergy of audio for navigation

Synergy指的是：（两个或多个组织共同协作后产生的）协同增效作用、协同作用

因为我们的智能体既能听又能看，它不仅有可能更好地定位发声物体，还能更好地规划其在环境中的运动（环境的主要结构、墙壁、家具等都影响声音的感知方式）。最优策略将跟踪一条路径p*对应于单调递减的到目标的测地距离。值得注意的是，∆并不能明确指出最优策略：沿p*移动会减小测地线距离，但可能会减小或增加每个时间步到目标的欧几里得距离。例如，如果目标在沙发后面，智能体必须在沙发周围移动才能到达它。重要的是，音频流A具有互补的和潜在的比∆更强的信息。 不仅声源的强度反映了到目标的欧几里得距离，而且在声学中捕捉到的房间的几何形状也揭示了测地线距离。 正如我们在结果中所显示的，视觉和听觉输入是协同增效的；两者都不单独起作用。

上述话语也就是说使用声源的强度可以得到最优策略。

实验

本文的主要目标为：

1、同时兼顾视觉和声音的导航（即建议的AudioPointGoal)，可以更好地导航和更快地学习。这表明，音频可以提供利于导航的补充信息。

2、在3D环境中侦听音频目标是一种可行的替代基于GPS的线索。 AudioGoal Agent不仅比PointGoal Agent更好地导航，甚至在有噪声的音频传感器的情况下也能做到这一点，但是点导航却假设有完美的里程。 AudioGoal任务具有真实感的重要优势：Agent自主感知AudioGoal中的目标，而目标直接通过PointGoal中的∆直接给Agent--这在实际应用程序中是罕见的。

3、视听导航可以推广到新环境和新声源。特别是，即使声源不熟悉，视听智能体也可以通过音频更好地导航。

数据集

每一个episode包含一个元组：场景，智能体开始位置，智能体开始旋转，目标位置，音频波形。我们通过选择一个场景和一个随机的开始和目标位置来生成eipsode。我们去除了那些要么太短（测地线距离小于4）要么可以通过以直线运动完成（测地线与欧几里得距离之比小于1.1）的简单的episode。我们确保在每一个episode开始时，智能体可以听到声音，因为在一些大型环境中，当智能体离声音太远时，音频可能是听不见的。

声源

RIRs可以与任意输入波形进行卷积，这允许我们在episode中改变声音。我们使用102个电话、音乐、风扇和其他自然声音。除另有说明外，声源为电话铃声。我们强调，在所有的实验中，测试时的环境是未映射的，在以前的训练中从未见过。在训练中听到的声音在测试时也能听到是有效的，例如，在多个环境中的电话铃声听起来不同，这取决于3D空间以及目标和智能体的位置。

评估指标

SPL：平衡SR和PL。其中SR衡量智能体在目标一定距离内完成任务的频率，PL测量导航路径的总长度

只有当智能体达到目标并执行停止操作时，我们才认为一个episode成功。

Baselines

Random：在{MoveForward, TurnLeft, TurnRight} 中随机选择一个动作

Forward：总是调用 MoveForward，如果遇到障碍物，它会调用 TurnRight，然后继续前进并重复。

GOAL FOLLOWER：首先朝着目标定位自己，然后调用 MoveForward。

以上三个方法都是在到达目标后，执行Stop动作。

为什么音频信息有助于导航任务？

首先，我们通过比较 PointGoal 和 AudioPointGoal 智能体来评估将音频感知添加到视觉导航的影响。表 2 比较了两个智能体的导航性能（以 SPL 表示）和测试环境中的基线。我们考虑三种视觉感知能力：无视觉输入（盲）、原始 RGB 图像或深度图像。（我们发现 RGB+D 并不比单独使用深度更好。）

音频显著提高了精度，显示了导航多模态感知的清晰价值。两个学习的智能体在更强的视觉输入（深度是最强的）下做得更好，尽管RGB和深度图之间的差距对AudioPointGoal来说有点小。这很有趣，因为它表明视听学习比单独配备视觉的模型更容易从原始RGB图像中捕捉几何结构（如深度）。

图4为自上而下地图上的导航轨迹，表明了音频如何影响导航行为。上图：Replica--智能体撞到墙上几次试图向目标移动，无法确定目标实际上位于另一个房间。相比之下，AudioGoal和AudioPointGoal代理更好地感知目标：声音穿过门，智能体立即离开起始房间。下图：Matterport--AudioGoal智能体最好地避免了回溯，以便在一个大的多房间家庭中有效地到达目标。

音频可以取代GPS作为音频目标吗？

探索在（音频-）视觉导航期间，音频在多大程度上提供了可从GPS传感器中获得的空间线索。 这个测试需要比较PointGoal和AudioGoal。回想一下，与（音频）PointGoal不同，AudioGoal接收不到指向目标的位移矢量；它只能听到和看到。

图 5(a) 为GPS的噪声增加时的导航的精度。最左边的点使用完美的 GPS 告诉 PointGoal 智能体（但不是 AudioGoal 智能体）目标的确切方向；对于后续点，增加方差的高斯噪声，直到 σ = 1.5m。所有智能体都使用深度图。与现有的PointGoal Agent不同，我们的AudioGoal Agent不依赖于GPS，因此对GPS噪声免疫。此外，面对 GPS 噪声，AudioPointGoal (APG) 的降级比 PointGoal (PG) 更优雅。这证明音频信号提供了与 PointGoal 位移相似甚至更好的空间线索——考虑到 GPS 在实践中尤其是在室内的不可靠性，这可能过于乐观。图 5（b）为音频特征的T-SNE投影，颜色编码以揭示它们与目标位置（左）和方向（右）的相关性，即源是远（红）或近（紫），以及到智能体的左（蓝）或右（红）。强化了这一发现：我们为 AudioGoal 学习的音频特征自然地编码了到目标的距离和角度。请注意，这些发现甚至与麦克风噪声一致：对于 40dB SNR（坏麦克风），SPL 在 Replica 和 Matterport 上分别仅从 0.756 略微下降到 0.753 和从 0.552 下降到 0.550。

探索我们的AudioGoal智能体是否基于声音强度学习到的不仅仅是指向目标的指针。 我们运行模型的一个变体，其中音频输入仅由左右波形的强度组成；音频CNN被移除，图3中网络的其余部分保持不变。这种简化的音频输入允许智能体很容易地学习跟随强度梯度。 AudioGoal-Depth Agent的性能下降到SPL为0.291和0.014，这表明我们的模型（图5(a)中的SPL为0.756和0.552）确实从完整的频谱图中学习了额外的环境信息，以更准确地导航。

我们预计，在任何给定的时间点，基于环境上下文和目标放置，音频和视频输入对Agent决策的相对影响是不同的。 如图所示，蓝色和绿色条分别显示视觉和音频的重要性。上图：最初，智能体依靠音频告诉目标在它的左边，并决定向左转。随后，它利用视觉识别前方的障碍物，并决定右转。最后，智能体决定停止，因为声音强度已经达到峰值。下图：最初，智能体决定左转，跟随音频源。然后智能体利用视觉识别自由空间并决定前进。后来，智能体更多地依赖音频来决定右转，因为它从右边听到目标。

不同的声源效果如何？

探索对新奇语音的概括。 我们将102个声音片段分成73/11/18个片段，分别用于训练/测试。对AG和APG进行训练，然后对不相交的Val和Test音进行验证和测试。在所有情况下，测试环境都是看不到的。

当我们在表中从左到右移动时，声音泛化任务变得更加困难：从单个听过的声音，到可变的听过的声音，再到可变的未听过的声音。我们的APG代理几乎总是优于PointGoal代理，即使是在未听过的测试声音下，这加强了表2的结论。 APG在听过和未听过的声音上表现得相当相似，表明它已经学会了平衡所有三种模式。另一方面，AG的准确性随着听过的声音和未听过的声音的变化而下降。虽然跟随一个不熟悉的声音的任务更难是有道理的，但我们也希望更多声音的更大的训练存储库将解决大部分这种下降。