论文阅读:SoundSpaces: Audio-Visual Navigationin 3D Environments

文章提出了视听导航任务,结合视觉和听觉信息,使用深度强化学习训练智能体在3D环境中导航。SoundSpaces是一个新的平台,提供真实感的音频渲染。研究显示,音频能提供关于目标位置和环境的补充信息,提高导航效率,且智能体能泛化到新环境和声音源。
摘要由CSDN通过智能技术生成

ECCV 2020

引言

视听导航任务:通过视觉和听觉,智能体必须学会导航到一个发生的物体。

应用场景:洗衣机发出响声可能表示洗衣完毕,哭闹的孩子需要引起我们的注意,打碎玻璃的声音可能需要紧急帮助。

目前的导航模型只是将视觉和移动紧密的结合起来,但是却对他们周围的世界充耳不闻。声音是理解物理空间和定位发出声音的目标的关键。声音的反馈部分的揭示了空间的几何形状、遮挡物体的存在、物体表面的材料,这些都可以作为视觉流的补充。其次,目前在可视范围之外的目标可能只能通过其声音(例如楼上有人打电话、沙发遮挡的电话铃声、从后面靠近的脚步声)来探测。 最后,当视觉提示不可靠(例如,灯光闪烁)或与智能体的任务有冲突(例如,有瓦砾的救援现场破坏了先前的视觉环境)时,听觉信息变得至关重要。

在以上因素的推动下,本文引入了视听导航任务(应该是在这个方向的第一个工作)。要求智能体在试图到达目标时既能看到又能听到。关于导航任务有两个变体:AudioGoal,寻找不在智能体视野中的发声物体。AudioPointGoal,是PointGoal导航的扩展,知道发声源和位置。

我们提出了一种多模态深度强化学习(RL)方法,从视听观测流中端到端地训练导航策略。并且在MatterPort3D和Replica中引入提前计算的音频渲染SoundSpaces。

如上图所示,音频强度的变化与最短路径距离有关。我们的音频可以支持智能体获得了关于目标的丰富的方向信息。 声音还揭示了房间的几何形状、主要结构和材料。 注意Agent到达目标必须使用的测地线路径(不同于最短的欧几里得路径,它会穿过内壁)上的场的梯度。 因此,提出的agent享受两种模式的协同作用:音频显示门作为一个良好的中间目标,而视觉显示沿路径的物理障碍,如左边房间的家具。

本文的主要贡献:

1、提出了在三维环境中智能体的视听导航任务;

2、提出了一个多模态深度强化学习方法,学习视觉和音频的是观测流,证明了该模型对导航的影响,达到了SOTA的效果。

3、提出了SoundSpaces平台。对Habitat平台上的MatterPort3D和Replica的103个环境进行了声音渲染。允许插入任意声源,并从任意智能体接收器位置正确地感知它。

4、为视听导航任务指定了一系列的benchmark。

相关工作

Audio-visual learning

关于视听结合的研究集中在视频上,而不在具身化的感知中。这包括用于合成用于视频的声音、空间化声音、声源分离、跨模态特征学习、视听跟踪和学习材料属性等方向。 与之前定位与声音相关的视频帧中的像素的工作不同,我们的目标是学习导航策略,以便智能体在 3D 环境中主动定位音频目标。与上述任何一项不同,我们的工作解决的是具体导航,而不是从人类捕获的视频中学习。

Vision-based navigation

最近的智能体聚集了以自我为中心的视觉输入,通常带有时空记忆。 视觉导航可以与其他任务联系起来,以实现智能行为,如问题回答、主动视觉识别和指令遵循。 我们的工作超越了视觉感知,融入了听觉,为导航提供了一个新颖的视角。

Audio-based navigation

认知科学也证实音频是一种强烈的导航信号。 盲人和有视力的人在空间导航和声音定位任务上表现出相当的能力。 因此,基于音频的AR/VR设备被设计出来,用于听觉感官替代人类用户进行避障和导航。 此外,类似卡通的虚拟2D和3D视听环境可以帮助评估人类对音频线索的学习。 与我们提出的平台不同,这些环境是非真实感的,它们是为人类导航员设计的,不支持智能体训练。 以前对模拟环境中的智能体的研究仅限于人工构建的游戏板,没有使用声学上正确的声音模型,并且在相同的环境中训练和测试。

Sound localization in robotics

目前没有工作尝试在未映射的环境中进行视听导航。

在计算机图形环境中的视听导航,将任务解耦成从音频中预测目标位置,然后规划到达目标位置的路径。我们的仿真平台对于视觉(我们的真实世界图像与[29]中的计算机图形)和声学(我们的光线跟踪/声音穿透/完全遮挡模型与[29]中的低成本游戏音频)都更加逼真,它提供了5000倍以上的音频数据和15倍以上的环境。 据我们所知,我们是第一个在视觉和声学逼真的3D环境中演示视听智能体改进导航的工作,也是第一个引入端到端方法解决这个问题的工作。

3D environments

目前没有3D的环境和模拟器提供音频,我们提出了第一个用于人工智能智能体训练的视听模拟器,并首次研究了真实感三维环境中的视听具身智能体。

SoundSpaces: Enabling Audio in Habitat

本文使用85个Matterport3D环境,该环境为基于真实的世界,平均占地517平方米。Replica是一个包含18个公寓、酒店、办公室和房间场景的三维网格数据集。 通过将这些与Habitat兼容的3D资产扩展到我们的音频模拟器中,我们使用户能够利用高效的Habitat API,轻松地采用音频模式进行AI Agent训练。 我们的音频平台和数据是公开共享的。

对于每个场景,我们通过预先计算房间脉冲响应(RIR)来模拟环境的声学。 RIR是声源和麦克风之间的传递函数,它随房间几何形状、材料和声源位置的变化而变化。

在SoundSpace中,分别存在N个可能的声音源S和听者L。在Replica数据集和MatterPort3D数据集上分别隔0.5米和1米进行密集采集,最后Replica采了38-566个点,Matterport3D采了20-2103个点。点被放置在1.5米的垂直高度,反映了一个机器人智能体的固定高度。然后,我们模拟RIR对于每个可能的声源和听者放置在这些位置,S×L。 这样,我们就可以通过将所需的波形与所选的RIR进行卷积,在运行中查找任何声源和听者对并渲染声音。

 如上图所示,我们在图示的网格中捕捉每个位置对之间的房间脉冲响应(这里是Replica中的“FRI_apartment_0”场景)。 在我们的平台中,智能体可以在密集采样的位置L用黑点标记体验双耳音频--听到声音的强度、方向和频率纹理。 HeatMaps显示音频压力场,从红色下降到蓝色。 左:当S中的一个声源放在中心时。 右图:当一个源放在楼梯上时。 注意当声源移动时,智能体在不同位置接收到的声音是如何变化的,以及3D结构如何影响声音的传播。

对于放置在任意位置的声源,智能体都可以在任何位置听到环绕立体声。双耳音频以表示一个具有两个类似人类的耳朵的智能体,对他来说,感知的声音取决于身体在场景中的相对方位。*=我们的平台还允许呈现多个同时的声音。

由于实施例的限制(例如,不能在沙发上攀爬),智能体可能无法站在L中的每个位置,我们创建了一个图来捕获这些位置的可达性和连通性。 首先删除不可导航的节点,然后对于每个节点对(i,j),我们认为边e(i,j)是有效的,当且仅当i和j之间的欧几里得距离对于Replica是0.5米,对于Matterport是1m(即节点i和j是近邻),并且它们之间的测地线和欧几里得距离相等(即两者之间没有障碍物)。

视听导航任务定义(本文假设整个episode中的发生物体不断地发出声音)

本文提出了两种新的导航任务:AudioGoal导航和AudioPointGoal导航。在AudioGoal中,智能体可以听到发声物体发出的声音(例如:电话铃声),但是却不知道发声物体的具体位置。 AudioPointGoal是PointGoal任务的音频扩展,其中Agent听到发声源并被告知其从起始位置的位移。 在这三个任务中,为了导航和避开障碍物,智能体需要单独使用感官输入到达目标。 也就是说,不向智能体提供场景的地图。

任务定义

PointGoal:

给出了目标点的位置(x,y,z),智能体在一个环境中随机初始化,初始位置为(0,0,0),智能体需要导航到该位置

AudioGoal:

智能体并不知道发声物体位置,需要导航找到该发声物体。其中,音频会根据智能体的位置、发声物体的位置和房间的结构以及材料不断更新。

AudioPointGoal:

该任务为AudioGoal和PointGoal任务中接收到的信息的结合,智能体知道发声物体的具体位置。

 注意,物理障碍(墙壁、家具)通常沿着位移矢量存在,智能体在导航时必须感知到这些障碍。

动作空间

moveforward、turnleft、turnright、stop。其中当节点和节点之间没有边的时候,moveforward动作无效。对于所有模型,没有驱动噪声。

传感器

模型输入为:双耳声音(点导航没有)、GPS(声音导航没有)、RGB图像和深度图。为了捕捉双耳空间声音,模拟人类高度为智能体放了两个麦克风。

Episode

PointGoal的一个episode由任意的场景、智能体开始位置、智能体开始旋转和目标位置来定义。 在每个episode中,如果智能体成功导航,它就可以到达目标。 用于AudioGoal和AudioPointGoal的episode还包括源音频波形。 该波形与对应于特定场景、目标、Agent位置和方位的RIR进行卷积,为Agent生成动态音频。 我们考虑各种音频源,既有智能体熟悉的,也有智能体不熟悉的。 如果智能体执行停止动作时正好处于目标位置,则一个episode成功。 允许智能体对所有任务执行500个动作。

导航网络和训练

 模型输入

左右耳的声音频谱图:取前1000ms的音频作为输入,通过短时傅里叶变换以及下采样,将左右耳频道通道矩阵叠加得到一个65*65*2和一个65*26*2的张量,记为A。

视觉输入(V):RGB和/或Depth图像,分别为128*128*3和128*128*1的张量。其中,128是智能体90°视野的图像分辨率。

相对位移向量:Δ = (Δx,Δy) 在场景的 2D 地平面中从智能体指向目标。

智能体接收这三个输入(音频、视频、位置矢量)中的哪一个特定子集取决于智能体的传感器和具体的目标。 通过策略网络,感知输入被转换成行为空间上的概率分布。

模型网络框架

处理视觉信息和频谱图信息的CNN网络参数不同,结构相同,即CONV8×8、CONV4×4、CONV3×3和线性层,每层之间有RELU激活。 CNNs的输出分别是长度为La和Lv的向量Fa(A)和Fv(v)。 它们被连接到相对位移向量上来,并由门控递归单元(GRU)进行变换。 GRU对当前步骤的输入以及状态ht-1的累积历史进行操作。 GRU将历史更新为Ht,并输出智能体状态Ot的表示。 最后,利用模型的actor-critic网络估计了状态Vθ(Ot,Ht-1)和策略分布πθ(At|Ot,Ht-1)的值。两者都是线性层。

La,Lv,LΔ,Ls(Ls为最终状态的值)分别为:512,512,2,1026

GRU为双向GRU,输入大小为512,隐藏大小为512。使用了一个递归层。

使用Adam进行优化,学习率为2.5e-4,使用0.99的衰减折扣奖励。

在Replica和Matterport3D上分别训练了30m和60m的Agent步数,分别相当于105和210 GPU小时。

训练

我们用近端策略优化(PPO)训练网络。 智能体因迅速达到目标而得到奖励。 具体地说,在目标位置执行STOP将获得+10的奖励,每一个时间步将获得-0.01的负奖励,减少到目标的测地距离将获得+1的奖励,增加到目标的测地距离将获得同等的惩罚。 为了更好地探索行动空间,我们在累积奖励优化中加入了熵最大化项。(熵最大化的模型认为是最优的)

Synergy of audio for navigation

Synergy指的是:(两个或多个组织共同协作后产生的)协同增效作用、协同作用

因为我们的智能体既能听又能看,它不仅有可能更好地定位发声物体,还能更好地规划其在环境中的运动(环境的主要结构、墙壁、家具等都影响声音的感知方式)。 最优策略将跟踪一条路径p*对应于单调递减的到目标的测地距离。 值得注意的是,∆并不能明确指出最优策略:沿p*移动会减小测地线距离,但可能会减小或增加每个时间步到目标的欧几里得距离。 例如,如果目标在沙发后面,智能体必须在沙发周围移动才能到达它。 重要的是,音频流A具有互补的和潜在的比∆更强的信息。 不仅声源的强度反映了到目标的欧几里得距离,而且在声学中捕捉到的房间的几何形状也揭示了测地线距离。 正如我们在结果中所显示的,视觉和听觉输入是协同增效的; 两者都不单独起作用。

上述话语也就是说使用声源的强度可以得到最优策略。

实验

本文的主要目标为:

1、同时兼顾视觉和声音的导航(即建议的AudioPointGoal),可以更好地导航和更快地学习。 这表明,音频可以提供利于导航的补充信息。

2、在3D环境中侦听音频目标是一种可行的替代基于GPS的线索。 AudioGoal Agent不仅比PointGoal Agent更好地导航,甚至在有噪声的音频传感器的情况下也能做到这一点,但是点导航却假设有完美的里程。 AudioGoal任务具有真实感的重要优势:Agent自主感知AudioGoal中的目标,而目标直接通过PointGoal中的∆直接给Agent--这在实际应用程序中是罕见的。

3、视听导航可以推广到新环境和新声源。特别是,即使声源不熟悉,视听智能体也可以通过音频更好地导航。

数据集

 每一个episode包含一个元组:场景,智能体开始位置,智能体开始旋转,目标位置,音频波形。 我们通过选择一个场景和一个随机的开始和目标位置来生成eipsode。 我们去除了那些要么太短(测地线距离小于4)要么可以通过以直线运动完成(测地线与欧几里得距离之比小于1.1)的简单的episode。 我们确保在每一个episode开始时,智能体可以听到声音,因为在一些大型环境中,当智能体离声音太远时,音频可能是听不见的。

声源

RIRs可以与任意输入波形进行卷积,这允许我们在episode中改变声音。 我们使用102个电话、音乐、风扇和其他自然声音。除另有说明外,声源为电话铃声。 我们强调,在所有的实验中,测试时的环境是未映射的,在以前的训练中从未见过。 在训练中听到的声音在测试时也能听到是有效的,例如,在多个环境中的电话铃声听起来不同,这取决于3D空间以及目标和智能体的位置。

评估指标

SPL:平衡SR和PL。其中SR衡量智能体在目标一定距离内完成任务的频率,PL测量导航路径的总长度

只有当智能体达到目标并执行停止操作时,我们才认为一个episode成功。

Baselines

Random:在{MoveForward, TurnLeft, TurnRight} 中随机选择一个动作

Forward: 总是调用 MoveForward,如果遇到障碍物,它会调用 TurnRight,然后继续前进并重复。

GOAL FOLLOWER:首先朝着目标定位自己,然后调用 MoveForward。

以上三个方法都是在到达目标后,执行Stop动作。

为什么音频信息有助于导航任务?

首先,我们通过比较 PointGoal 和 AudioPointGoal 智能体来评估将音频感知添加到视觉导航的影响。表 2 比较了两个智能体的导航性能(以 SPL 表示)和测试环境中的基线。我们考虑三种视觉感知能力:无视觉输入(盲)、原始 RGB 图像或深度图像。 (我们发现 RGB+D 并不比单独使用深度更好。)

音频显著提高了精度,显示了导航多模态感知的清晰价值。 两个学习的智能体在更强的视觉输入(深度是最强的)下做得更好,尽管RGB和深度图之间的差距对AudioPointGoal来说有点小。 这很有趣,因为它表明视听学习比单独配备视觉的模型更容易从原始RGB图像中捕捉几何结构(如深度)。

图4为自上而下地图上的导航轨迹,表明了音频如何影响导航行为。上图:Replica--智能体撞到墙上几次试图向目标移动,无法确定目标实际上位于另一个房间。 相比之下,AudioGoal和AudioPointGoal代理更好地感知目标:声音穿过门,智能体立即离开起始房间。 下图:Matterport--AudioGoal智能体最好地避免了回溯,以便在一个大的多房间家庭中有效地到达目标。

 音频可以取代GPS作为音频目标吗?

探索在(音频-)视觉导航期间,音频在多大程度上提供了可从GPS传感器中获得的空间线索。 这个测试需要比较PointGoal和AudioGoal。 回想一下,与(音频)PointGoal不同,AudioGoal接收不到指向目标的位移矢量; 它只能听到和看到。

 图 5(a) 为GPS的噪声增加时的导航的精度。最左边的点使用完美的 GPS 告诉 PointGoal 智能体(但不是 AudioGoal 智能体)目标的确切方向;对于后续点,增加方差的高斯噪声,直到 σ = 1.5m。所有智能体都使用深度图。与现有的PointGoal Agent不同,我们的AudioGoal Agent不依赖于GPS,因此对GPS噪声免疫。 此外,面对 GPS 噪声,AudioPointGoal (APG) 的降级比 PointGoal (PG) 更优雅。这证明音频信号提供了与 PointGoal 位移相似甚至更好的空间线索——考虑到 GPS 在实践中尤其是在室内的不可靠性,这可能过于乐观。 图 5(b)为音频特征的T-SNE投影,颜色编码以揭示它们与目标位置(左)和方向(右)的相关性,即源是远(红)或近(紫),以及到智能体的左(蓝)或右(红)。强化了这一发现:我们为 AudioGoal 学习的音频特征自然地编码了到目标的距离和角度。请注意,这些发现甚至与麦克风噪声一致:对于 40dB SNR(坏麦克风),SPL 在 Replica 和 Matterport 上分别仅从 0.756 略微下降到 0.753 和从 0.552 下降到 0.550。

探索我们的AudioGoal智能体是否基于声音强度学习到的不仅仅是指向目标的指针。 我们运行模型的一个变体,其中音频输入仅由左右波形的强度组成; 音频CNN被移除,图3中网络的其余部分保持不变。 这种简化的音频输入允许智能体很容易地学习跟随强度梯度。 AudioGoal-Depth Agent的性能下降到SPL为0.291和0.014,这表明我们的模型(图5(a)中的SPL为0.756和0.552)确实从完整的频谱图中学习了额外的环境信息,以更准确地导航。

我们预计,在任何给定的时间点,基于环境上下文和目标放置,音频和视频输入对Agent决策的相对影响是不同的。 如图所示,蓝色和绿色条分别显示视觉和音频的重要性。上图:最初,智能体依靠音频告诉目标在它的左边,并决定向左转。 随后,它利用视觉识别前方的障碍物,并决定右转。 最后,智能体决定停止,因为声音强度已经达到峰值。 下图:最初,智能体决定左转,跟随音频源。 然后智能体利用视觉识别自由空间并决定前进。 后来,智能体更多地依赖音频来决定右转,因为它从右边听到目标。

不同的声源效果如何?

探索对新奇语音的概括。 我们将102个声音片段分成73/11/18个片段,分别用于训练/测试。 对AG和APG进行训练,然后对不相交的Val和Test音进行验证和测试。 在所有情况下,测试环境都是看不到的。

 当我们在表中从左到右移动时,声音泛化任务变得更加困难:从单个听过的声音,到可变的听过的声音,再到可变的未听过的声音。  我们的APG代理几乎总是优于PointGoal代理,即使是在未听过的测试声音下,这加强了表2的结论。 APG在听过和未听过的声音上表现得相当相似,表明它已经学会了平衡所有三种模式。 另一方面,AG的准确性随着听过的声音和未听过的声音的变化而下降。 虽然跟随一个不熟悉的声音的任务更难是有道理的,但我们也希望更多声音的更大的训练存储库将解决大部分这种下降。

总结

1、证明了音频不仅丰富了声源的方向线索,还丰富了环境的空间信息;

2、提出了新的任务:视听导航

3、开发了SoundSpace环境

4、未来会考虑多智能体场景、sim2real、moving sound-emitting targets, and navigating in the context of dynamic audio events.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值