【语音交互】语音采集与处理

最新推荐文章于 2024-06-20 21:52:01 发布

Howe_xixi

最新推荐文章于 2024-06-20 21:52:01 发布

阅读量1.2k

点赞数 2

分类专栏：语音交互文章标签：交互

本文链接：https://blog.csdn.net/weixin_44362628/article/details/128323464

版权

语音交互专栏收录该内容

3 篇文章 2 订阅

订阅专栏

1.声音的三要素

1.1 音调

音调，感官的层面上，即指“低沉、刺耳”,物理层面上，即指物体振动的频率。频率低则“低沉”，频率高则刺耳。

人的声带振动频率，约在10hz~10Khz，而人耳的听力范围在20hz~20Khz，低于20称为次声波，处于其中称为可听区域，超过20称为超声波。

1.2 响度

响度，也就是声音的响亮程度，在物理层面上，指的是物体的振动幅度，幅度越大，响度越大。反之则越小。

1.3 音色

“风声、雨声、读书声”，音色造就不同的声音底色；从物理层面上。指的是发声物体材质的不同。

物体整体振动发出的只是基音，其各部分还有复合的振动，这些复合的振动也会发出声音并形成泛音，基音+泛音的不同组合就产生了多样化的音色。

此波形图可以进行控制变量法查看造成声音的影响因素。

2.音频数字化

声音由变化的气压组成，产生的声波带动麦克风上的膜片震动，膜片带动套在磁铁上的线圈震动，产生了声音的模拟信号。音频信号数字化的过程就是模拟数据转换成数字信号的过程，从以下的这个图即可看出音频数字化的过程。图波形图中，取水平横轴为时间维度，纵轴为幅度维度。

2.1 采样：以一定采样率，在时间轴上对模拟信号进行数字化

将模拟数据以固定的时间间隔对声音进行采样，按照固定的时间间隔 T（假设 T=0.1s），依次取多个点（如图中 1~10 所对应波上的点）。此时 T 称为取样周期，T 的倒数为本次取样的采样率（f=1/T=10Hz），f 即表示每秒钟进行采样的次数，单位为赫兹（Hz）。

人耳能听到的频率范围为20HZ~20KHZ，根据香农奈奎斯特采样定理（为了不失真地恢复模拟信号，采样频率应该大于等于模拟信号频谱中最高频率的2倍。f s≥2f max），采样频率一般为44.1Khz。然后对音频进行采样，测量音频电平，计算机每隔几微秒就会抓拍一次信号，比如44.1KHz，即每秒采集44100次。

2.2 量化：以一定精度，在幅度轴上对模拟信号进行数字化

完成采样后，接下来进行音频数字化的第二步，量化。采样是在时间轴上对音频信号进行数字化，得到多个采样点；而量化，则是在幅度方向上进行数字化，得到每个采样点的幅度值。

如上图中所示，设定纵轴的坐标取值范围为 0 ~8，得到每个采样点的纵坐标（向上取整），这里的坐标值即为量化后的幅度值。因为我们将幅度轴分为了 8 段，有 8 个值用于量化取整，即本次量化的精度为 8。显然，如果分段越多，则幅度的量化取值将越准确（取整带来的误差就越小），也能越好的表示原波形。对于幅度的量化精度，有一个专有术语描述 —— 位深。

计算机将这些抓拍到的信号转换成数字，定义振幅的变化。然后对获取到的数字进行二进制编码，代表被测瞬间波形的电压值，完成量化的过程。

2.3 编码：按特定格式，记录采样/量化后的数据

那么如果我们想要将这些声音再播放出来，需要通过数模转换器，将数字信号转换会模拟信号，再由反折叠滤波器对模拟信号内的极差加以平滑，还原成初始的模拟信号。

经过量化后，我们得到了每个采样点的幅度值。接下来，就是音频信号数字化的最后一步，编码。编码是将每个采样点的幅度量化值，转化为计算机可理解的二进制字节序列。

如上图，参照编码部分的表格，样本序号为样本采样顺序，样本值（十进制）为量化的幅度值。而样本值（二进制）即为幅度值转换后的编码数据。最终得到了“0”、“1”形式的二进制字节序列，也即离散的数字信号。这里得到的，是未经压缩的音频采样数据裸流，也叫做PCM 音频数据(Pulse Code Modulation，脉冲编码调制)。实际应用中，往往还会使用其他编码算法做进一步压缩。

3 音频数字信号质量三要素

3.1 采样率

音频采样率，指的是单位时间内（1s）对声音信号的采样次数。

对于最大频率为 f 的音频信号，当我们分别采用 f、2f、4f/3 的采样率进行采样时，所得到的采样结果参考下图。显然，只有当采样率为 2f 时，才能有效的保留原信号特征。采样率 f 和3f/4 下得到的结果，都和原波形差别很大。

图采样率对采样结果的影响

3.2 采样位深

在学习音频数字化过程的“量化”步骤时，就提及了量化精度-位深的概念。采样位深，指的是在音频采集量化过程中，每个采样点幅度值的取值精度，一般使用bit作为单位。比如，当采样位深为 8bit，则每个采样点的幅度值可以用 2^8=256 个量化值表示；采样位深为 16bit 时，则每个采样点的幅度值可以用 2^16=65536 个量化值表示。显然，16bit 比 8bit 可存储、表示的数据更多、更精细，量化时产生的误差损失就越小。位深影响声音的解析精度、细腻程度，我们可以将其理解为声音信号的“分辨率”，位深越大，音色也越真实、生动。

采样位深选择和采样率的选择类似，虽然理论上来说位深越大越好，但是综合带宽、存储、实际听感的考虑，我们应该为不同场景选用不同的位深。