基于深度神经网络的定向激活功能开发相位信息的声源定位

最新推荐文章于 2025-01-19 19:08:38 发布

章子雎Kevin

最新推荐文章于 2025-01-19 19:08:38 发布

阅读量3.6k

点赞数 4

分类专栏：阵列信号处理

本文链接：https://blog.csdn.net/zhangziju/article/details/100939413

版权

本文介绍了使用深度神经网络（DNN）进行声源定位（SSL）的方法，解决了传统SSL的挑战。DNN在频域内集成方向信息并采用新型定向激活器，有效利用复数信息。实验表明，该方法在声源定位准确度上优于基于DNN的SSL方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

原文章地址
导向矢量（Steering Vector）由于阵列响应在不同方向上是不同的，导向矢量与信源的方向是相互关联的，这种关联的独特性依赖于阵列的几何结构。对于同一阵元阵列，导向矢量的每一个元素具有单位幅度。
须知道 导向矢量张成的子空间与噪声子空间正交。可认为信号子空间就是导向矢量张成的子空间。
SSL( sound source localization),即为声源定位。

摘要

本文介绍了使用判别训练的基于深度神经网络（DNN）的声源定位（SSL）。可以按如下方式配置SSL的简单DNN。输入是其他SSL方法中使用的频域特征，DNN的结构是使用实数的完全连接的网络。本文解决了如下两个问题：分层地在每个子带上集成方向信息，以及设计可以处理每个子带处的复数的定向激活器。实验表明，本文的方法在块级准确度方面优于基于DNN的SSL方法20个点。

关键词：声源定位，深度神经网络，频域，判别训练

简介

声源定位（SSL）是自主机器人（或系统）最基本的功能，因为它使它们能够检测声音事件并识别声音位置。这两种意识对于机器人开始行动和确定它们是否应该对事件作出反应至关重要。 SSL对机器人（带有麦克风的机器人）的两个主要困难是：对位置的限制和麦克风的数量和依赖于他们自身的复杂的声学特性。机器人上的SSL应该能够克服这两个难题。

频域中SSL的传统方法通过使用物理模型或测量获得“导向矢量”SV，如图1所示为声源定位的方法。
在这里插入图片描述

SV是从空间参考点到机器人的麦克风之间的强度和时间差的表示，并且在本地化过程中使用。这里，SV通常是复数，以同时处理强度和时间（相位）信息。前者通过使用几何信息分析计算SV，并在特殊麦克风排列下实现高分辨率SSL。后者可以应用于任何麦克风装置，因为它通过使用参考信号（例如时间延长脉冲（TSP））测量每个参考点处的实际SV。尽管后者的解决方案解决了这两个困难，但是基于似然的位置估计器具有各种参数，并且最佳参数随参考点的距离和高度而变化。

本文的方法完全基于从获得SV到学习位置估计器的判别机器学习。这种方法直接估计声音位置的后验概率而没有阈值参数。由于所有参数都针对每个机器人进行了优化，因此预期定位的准确性将比以前的方法有所提高。各种训练数据可由机器人记录或通过使用统计生成模型生成。请注意，它只需要观察到的声音信号和开发人员为各种应用设计的正确“标签”。

这样的标签不仅可以包括空间中的点，“从前面30°”，还可以包括诸如“远在前面”的粗糙标签。本文提出了两种在频域中将深度神经网络（DNN）应用于SSL的技术：方向信息的分层整合，以及可以处理复数的新型方向激活器。这里，定向激活器类似于DNN中的SV的表达，并且它可以利用强度和相位信息。激活器的设计基于多信号分类（MUSIC）中使用的正交性。因此，采用MUSIC中使用的特征作为DNN的输入。首先，通过每个子带的定向激活器计算实数的方向图像。实验揭示了DNN在麦克风说话者方面的稳健性。分析获得的DNN的参数将有助于将DNN应用于其他频域信号处理。

DNN的另一种适用结构是完全连接的网络，并且在频域SSL的情况下它失败。这是因为频率域中的每个子带通常是正交的，并且完全连接的网络破坏了这种有益的正交结构。DNN在自动语音识别和语音增强领域的输入是通常根据功率谱计算的特征。由于它们在相邻子带处相关，因此完全连接的网络作为语音特征提取器很好地工作。具有实数的DNN也由于相位信息的丢失而失败，并且在文献15中提到了相位信息的重要性。并且在中提到了相位信息的重要性。这里提出了两个复数的解：1）复值神经网络（CVNN）和2）DNN的实值特征，参考文献[18]。其中一些使用从CVNN计算的可能性，而其他一些使用双耳特征来输入每个子带的神经网络。CVNN的概率方面病没有被讨论，因为它的输出是复杂的值。因此，他们的技术不能直接应用于我们的多通道SSL和后验概率估计的情况。

基本方法

本节介绍基于MUSIC的SSL和DNN的原理，以及基于DNN的基于SSL的问题。此后，所有声音信号都通过短时傅里叶变换（STFT）进行分析，模型中的所有变量都在STFT域中用帧索引t和frequency-bin索引w表示。frequency-bin翻译为采样率/采样点数。

基于MUSIC的声源定位

本章主要介绍了MUSIC算法的基本实现过程，具体参见笔记1.

其中声源数为M，（阵元数为N,M<N）信号表示为抵达第N个阵元的功率，

$x_w[t]=[x_w,1[t],...,x_w,N[t]^T]$

数学模型为

$x_w[t]=\sum_{i=1}^Ma(i)s_{w,m}[t]+n_w[t])$

$s_{w,m}[t]$ 表示第m个声源信号，
$n_w=[n_w,1[t],...,n_w,N[t]^T]$ 代表噪声信号向量。
$a_w(r)=[a_w,1[r],...,a_w,N[r]^T]$ 是SV表示从参考声音位置，r，到每个麦克风的传递函数（自我理解为方向响应向量），换而言之，该向量包括麦克风之间的信号的强度和时间差信息。
MUSIC使用相关的特征向量的正交性矩阵 $R_w=E[x_w[t]x_w^H[t]]$ ,E可以得到其协方差矩阵，H表示矩阵的共轭转置。
线性空间生成相关矩阵 $R_w$ 可被分为两个字空间，信号子空间 $S_s$ 和噪声子空间 $S_n$ ，特征向量和 $R_w$ 的特征值通过应用特征值分解获得。
$E_w=[e_{w,1},...,e_{w,N}]\ inC^{N\times N}$ 为特征向量，
$\Lambda_w=diag[\lambda_{w,1},...,\lambda{w,N}]$ 是对应的特征值，特征值按降序排序。
同时， $e_{w,i}\in C^N(i=1,...M)$ 对应于信号空间的基础集 $S_s$

最低0.47元/天解锁文章