影响声音定位的几个因素

最新推荐文章于 2025-07-13 15:13:45 发布

原创最新推荐文章于 2025-07-13 15:13:45 发布 · 7k 阅读

107 ·

CC 4.0 BY-SA版权

全国大学生智能车竞赛同时被 2 个专栏收录

1829 篇文章

订阅专栏

教学-交流-科普

1453 篇文章

订阅专栏

在昨天的推文中，讨论了利用声音测距的基本方法。在具体应用中，具体会碰到哪些问题，下面给出今天的一些测试结果。

实验装置和数据采集

数据时通过基于STM32F103RE的AD、DA¹采样板来控制音响发送Chirp声音信号和采集MIC接收到的声音信号的。

实验中测试面包板

实验中测试面包板

1. 直线滑轨定位

演示中所使用的滑轨长度大约为1米，滑块有效移动距离为0.9米。通过ZIGBEE无线控制命令控制滑块做直线均匀运动。

设置在滑轨上的声音传感器

设置在滑轨上的声音传感器

实验中的Chirp声音信号是由单片机产生并通过DA输出给蓝牙音箱的播放。信号从数字缓冲区通过DA转换成模拟信号，声音信号经过AD转换为数字信号的速率为都设置为10kHz。输出和输入声音的缓存区的长度为2500，声波时间长度为0.25秒。

实际声音的长度为2048,。因此在输出和采样前后各有250个数据点（大约25ms）左右时静音的声音。下图给出了一个典型的发送声音信号和接收到的声音采集信号波形。
每个采集数据包里的数据波形

每个采集数据包里的数据波形

采集数据处理

在每个位置点都采集到相应的发送和接受数据，通过相关计算获得时间延迟。

1. 发送和接收数据之间的互相关系数计算

计算每个数据包里的发送信号与接收信号之间的相关系数，从而确定最大的峰值位置。下图给出了一个典型的发送和接受信号的相关结果曲线：
第一个数据包中发送和接收数据之间的相关系数

第一个数据包中发送和接收数据之间的相关系数

2. 相关系数的最大、最小位置与数据采样之间的关系

下图将每个数据包中相关系数的最大值点和最小值点的位置与数据采样点之间的绘制出来。随着数据序号的增多，对应接收声音的MIC位置原理音箱，相关系数的极值位置也在发生变化。基本上都是随着采用序列的增多而线性下降，反映了MIC的位置是线性原理声源的位置。
相关系数最大值最小值的位置与数据采用之间的关系

相关系数最大值最小值的位置与数据采用之间的关系

数据中最大值的位置基本上都是单调下降，只是在后期出现了略微的抖动。但是最小值的位置出现过较大的波动。这说明最大值的位置用于确定延迟时间比较稳定。

下图显示了相关系数最大值和最小值随着采样点位置之间的关系。随着采样点增多，音箱和麦克风之间的距离增加。相关系数的绝对值因为噪声的原因都会下降。整体上极大值点的相关系数呈现单调下降的趋势，而极小值点的数值变化呈现非单调的形态。这也从另外一个角度反映了为什么前面相关系数极小值点的位置出现抖动的原因。
相关系数最大值和最小值与采样位置之间的关系

相关系数最大值和最小值与采样位置之间的关系

3. 分析相关峰值位置的变化与采样距离之间的关系

对于相关系数最大值峰值点的变化从开始的 $p_1 =$ 2497，一直变化到最后的 $p_2 =$ 2473。变化的数值： $p_1 - p_2 =$ 24。

由于实验中声音信号的采集频率 $f_s = 10,000$ Hz，所以上述峰值位置的变化所对应的时间延迟为： $\Delta t = {{p_1 - p_2 } \over {f_s }} = {{24} \over {10 \times 10^3 }} = 2.4\,\,\left( {ms} \right)$
如果考虑到当时的室温为25℃左右，对应的空气中声音传播的速度： $v_{air} = 331 + 0.6 \times T = 331 + 0.6 \times 25 = 346 \:\:(m/s)$

那么前面 $\Delta t$ 所对应的距离为： $\Delta t \times v_{air} = 2.4 \times 10^{ - 3} \times 346 = 0.83\:\:(m)$

测量接收声音的MIC实际移动的距离为0.671米。这中间出现了 $\chi = {{0.83 - 0.671} \over {0.671}} \times 100\% = 23.7\%$ 的误差。

具体为什么？现在还不可得而知。

实际接收声音的MIC移动的距离

测量实际接收声音的MIC移动的距离

声音延迟的分辨率与空间分辨率

通过相关运算可以获得声音传播的延迟，近而获得声源与接收麦克之间的距离。

由于声音信号是通过离散时间采样，因此对于时间延迟的分辨率就会受到采样时间 $T_s$ 的影响。在前面给出了测量结果中可以看出时间延迟曲线呈现明显的台阶，这是由于采样时间所引起的时间分辨率引起的。
相关系数最大值最小值的位置与数据采用之间的关系
根据实验延迟计算出空间距离，同样也会具有一个分辨率下限。 $\Delta d = T_s \cdot v_{air}$ 。其中的 $v_{air}$ 是空气中的升速， $T_s$ 是声音信号采样时间。

下面讨论如何提高声音延迟的分辨率、计算效率、以及麦克的不同空间指向对于测量结果的影响。

快速相关运算

1. 利用FFT加速计算相关运算

（1）相关运算的复杂度

对于两个时间信号 $x\left( t \right),y\left( t \right)$ ，它们的相关运算结果 $R_{xy} \left( t \right)$ 定义如下：
$R_{xy} \left( t \right) = \int_{ - \infty }^\infty {x\left( \tau \right) \cdot y\left( {\tau - t} \right)^* \cdot d\tau }$ 如果这两个信号都是实值信号，公式里面的共轭就可以省略。

对于两个实数离散时间信号 $x\left[ n \right],y\left[ n \right],n \in \left\{ {0,...,N - 1} \right\}$ ，它们之间的普通相关运算定义为：
$R_{xy} \left[ n \right] = \sum\limits_{m,m - n \in \left[ {0,N - 1} \right]}^{} {x\left[ m \right] \cdot y\left[ {m - n} \right]}$

从相关运算定义来看，计算两个长度为 $N$ 的序列相关运算，乘法、加法的计算复杂度与 $N^2$ 成正比。

（2）相关运算与卷积运算的关系

在信号运算中，还有一个应用更广泛的运算：卷积运算。 $x\left( t \right),y\left( t \right)$ 之间的卷积运算定义为： $x\left( t \right) * y\left( t \right) = \int_{ - \infty }^\infty {x\left( \tau \right) \cdot y\left( {t - \tau } \right)d\tau }$
对比一下信号的相关运算和卷积运算的定义，可以看出它们之间的关系：
$R_{xy} \left( t \right) = x\left( t \right) * y^* \left( { - t} \right)$

（3）快速卷积数值计算

之所以讨论相关运算与卷积运算之间的关系，是为了寻找相关运算的快速算法。

计算一个序列 $x\left[ n \right],n \in \left\{ {0,...,N - 1} \right\}$ 的离散傅里叶变换 $\left\{ {x\left[ n \right]} \right\}$ 有相应的快速算法-快速傅里叶变换 $FFT\left\{ {x\left[ n \right]} \right\}$ ，在 $N$ 为2的整数次幂的情况下，计算FFT的乘法，加法的复杂度都在 $log _2 N$ 的数量级别。正变换和反变换的复杂度相同。

在根据傅里叶变换的卷积定理，序列的时域卷积（和）运算，在频域是乘积运算。基于此，再利用前面讨论的相关与卷积运算之间的关系，可以得到计算两个序列的相关运算的快速算法：

$R_{x,y} \left( t \right) = FFT^{ - 1} \left\{ {FFT\left[ {x\left( t \right)} \right] \cdot FFT\left[ {y\left( t \right)} \right]^* } \right\}$

在实际工程中，往往参与卷积的两个信号实现已知，比如在利用声音定位的时候，发送声音信号往往是事先确定好的固定的Chirp信号，每次参与计算的新的信号是接收到的回声信号。所以在上面卷积的快速算法中，对于已知信号的FFT可以事先计算好并存储，实际运算中只需要完成对新采集到信号的FFT计算，以及对乘积结果的反FFT计算。

最后需要补充一下，在利用上面公式计算的时候，还需要将两个信号通过补0，变成长度等于两个序列长度之和减一。

2. 快速相关运算结果

使用快速计算，比直接在时域中进行卷积速度大大提高了。通过计算获得100组采样数据，每组2048个数据的相关峰值点，使用FFT需要大约：0.36秒钟；而使用普通的相关运算则需要200秒左右。

下图显示了通过两种方法所得到的相关峰值位置随着麦克风距离音箱位置变化而产生的延迟，这两种方法所得到的结果是一样的。
通过FFT得到的相关结果峰值位置

通过FFT得到的相关结果峰值位置

快速算法和直接计算两种方法的速度对比，可以通过下面两个动图所显示的计算过程能够体会出来。

下面是应用FFT快速计算机相关运算的过程。
使用FFT计算100点相关结果只需要0.37秒

使用FFT计算100组，每组2048点相关结果只需要0.37秒

下面则是直接计算卷积的过程：

直接计算100点相关结果则需要200秒左右

直接计算100组，每组2048数据点相关结果则需要192秒左右

提高相关运算的空间精度

1. 为什么前面测量结果曲线中出现台阶

如果直接根据序列的相关结果峰值位置确定声音延迟，那么声音延迟的时间分辨率就是声音信号的采样时间 $T_s$ ，再根据声音速度 $v_{sound}$ ，可以计算出所对应的测量距离的空间分辨率 $\Delta d = T_s \times v_{sound}$ 。

在采样时间 $T_s = 0.1ms$ ，20℃空气速度 $v_{20^o c} = 343\,\,\left( {m/s} \right)$ ，对应的空间分辨率 $\Delta d = 3.4\left( {cm} \right)$ ，也就是当收音麦克与音源之间的距离变化小于3.4厘米时，所测量得到的结果是一样的。这也就解释了前面100个位置点测量声音延迟曲线出现了很多台阶的原因。

2. 如何提高测量结果的空间分辨率

提高基于声音采样数据相关方法测量距离的空间分辨率，可以通过提高AD采样速率来解决。但这需要更高速的AD转换器，更多的数据存储内存以及更快速数据计算能力。

除此之外，还可以通过数据插值处理的方法来提高测量结果的空间分辨率。

数据插值可从离散时间采样数据 $x\left[ {nT_s } \right]$ 中获得时间更加密集的数据 $x\left[ {nT_{s1} } \right]$ 。插值分解成两个过程：第一个过程是将离散时间信号恢复成一个连续时间信号 $x\left( t \right)$ ；第二个过程就是在连续时间信号的基础上采用更加密集的是时间间隔采样 $x\left[ {nT_{s1} } \right]$ 。

恢复成连续时间信号可以有零阶保持、一阶保持、理想插值等不同方法，它们都可以看成是离散时间采样脉冲信号与一个插值函数进行卷积的结果： $x\left( t \right)_{reconstructed} = h\left( t \right) * x_s \left( t \right)$

零阶保持、一阶保持、理想插值分别对应的卷积信号是矩形信号、三角信号以及 $\sin c\left( t \right)$ 信号等。

不同的离散时间信号重建成连续时间信号的方法

不同的离散时间信号重建成连续时间信号的方法

使用理想插值所获得的结果更加平滑，但计算起来相对比较复杂。但如果是从离散时间信号的傅里叶变换结果中恢复插值信号的话，则有一个非常方便的方法，那就是通过对数据的DFT结果补零，获得更长的频谱数据，再通过反离散傅里叶变换，就可以得到原来数据的理想插值结果了。具体的原理在信号与系统课程中会进行介绍的。

由于前面在快速计算相关结果的时候，就利用了快速傅里叶变换，所以可以在最后一步进行反傅里叶变换的时候，先进行补零，然后在进行。

3. 实验数据对比

下面给出了插值10倍之后所获得的相关峰值位置结果，对比原始计算方法，可以看到经过插值之后的结果明显平滑多了。通过插值后的结果所获得的空间分辨率就从原来的3.6厘米降低到3.6毫米了。

经过空间插值细化后10倍后的相关峰值位置计算结构

经过空间插值细化后10倍后的相关峰值位置计算结构

由于实验环境是在室内，存在着很多反射波的干扰，所以当距离远了之后，距离测量出现了很多的波动，它们反映了空间中的很多驻波干扰。下图给出了不同插值倍率下结果曲线。

随着插值倍数增加，所得到延迟曲线变化

随着插值倍数增加，所得到延迟曲线变化

通过简单的差值就可以轻松提高测距的空间分辨率，所需要的代价就是计算时间加长了。下面图给出了插值的倍数与结果计算消耗的时间之间的关系，整体上呈现线性比例关系。
细化倍数和计算时间

细化倍数和计算时间

室内环境反射波对于测量结果的影响

由于是在室内进行实验，麦克风所接受到的声音信号除了直接来自于声源之外，可能还包括有四周墙壁的反射信号。如果声源距离比较近，四周的反射声波强度受到衰减，对于测量结果影响较小。

下面通过控制接受麦克的不同方向，考察一下测量结果是否受到影响。

使用舵机控制MIC的方向

使用舵机控制MIC的方向

将麦克放置距离音箱30厘米左右，方向从左到右旋转180°。对所获得的声音数据使用前面给出的插值细分方法，得到的声音延迟时间。下图给出了不同方向声音延迟结果曲线：
不同指向对应的相关延迟结果

不同指向对应的相关延迟结果

延迟时间对应的最大值和最小值分别是： $t_{\max } = 4895.5,\,\,\,\,t_{\min } = 4896.4$
在10kHz的采样率下，上述时间差所对应的距离变化为： $\Delta d = \left( {t_{\max } - t_{\min } } \right) \cdot v_{20^0 c} = 0.9 \times 10^{ - 4} \times 343 = 3\,\,\left( {cm} \right)$