声音计算，

zashizhi3299

已于 2024-09-12 09:20:25 修改

阅读量5.9k

点赞数 2

文章标签：声音计算 ai

于 2021-11-26 18:58:42 首次发布

本文链接：https://blog.csdn.net/zashizhi3299/article/details/121565814

版权

两大比赛

1、用于信号分离的SiSEC，单通道人声和伴奏分离

2、用于音乐信息检索的MIREX，与Music Information Retrieval相关的最先进的算法和系统。

SiSEC

两个任务：

mixture分离为2轨（人声和伴奏）
mixture分离为4轨（bass、drum、vocal、others）。

MIREX

全称Music Information Retrieval Evaluation eXchange，即音乐信息检索评测，比赛由IMIRSEL承办，每个子项目由任务组织者设计并管理，这些任务组织者基本就是各个领域的领头专家。

【最普适的任务：音频分类】Audio Classification (Train/Test) Tasks

包含了以下几个子任务：1. 美国流行音乐、拉丁音乐、韩国流行音乐的流派分类，2. 音乐情感分类、韩国流行音乐情感分类，3. 古典音乐的作曲家鉴别。这个任务做了很多年，准确率到达一个瓶颈，不同任务的准确率基本上就稳定在0.65~0.8之间。

【音频相似度和检索】Audio Music Similarity and Retrieval

音频相似度和检索，7000首30s的歌曲，返回一个稀疏矩阵，对每首歌返回相似度前100名的歌曲及相似度。不确定这种相似性度量是通过哪个衡量标准：节拍、速度、调式、节奏、旋律、和声、和弦，中的一个还是几个。

【符号旋律相似性】Symbolic Melodic Similarity

计算旋律相似性，应该指的是通过MIDI的旋律符号，比较旋律的相似性。

【结构分段】Structural Segmentation

输入一段音乐，输出的是对这段音乐的分段信息，因为音乐结构特别是流行音乐类型（如诗歌、合唱等）人人都能理解

【多基频检测与跟踪】Multiple Fundamental Frequency Estimation & Tracking

Estimation，将每一固定10ms内的基频检测出来；Tracking，将基频的持续长度检测出来。

【音频节奏检测】Audio Tempo Estimation

提交的程序应输出两个节拍（较慢的节拍T1和较快的节拍T2）以及T1相对于T2的强度（0-1）。

【音频标签分类】Audio Tag Classification

与Traing/Test任务类似，不同的是这里允许一个样本对应多个不同标签，所以最后的输出是一个稀疏矩阵等。

盲源分离评价指标

根据盲源分离评价指标（BSSEVAL），语音分离的性能指标有三个：Source-to-Distortion Ratio（SDR）、Source-to-Interferences Ratio（SIR）、Sources-to-Artifacts Ratio（SAR）。SIR 反映分离算法对干扰信号的抑制能力，SAR 反映分离算法对引入噪声的抑制能力，SDR 反映了总体的分离效果。SDR、SIR 和 SAR 的值越大表明分离性能越高。

常用数据集及其扩增

用于语音分离研究的常用数据集有 iKala 数据集与 DSD100 数据集。这两个数据集均提供独立的人声音轨与伴奏音轨。神经网络的输入可以通过混合人声音轨与伴奏音轨得到。当神经网络预测掩膜时，输出需要根据人声音轨与伴奏音轨计算得到；当神经网络预测幅度时，输出可以直接由人声音轨计算得到。

iKala 数据集

包含 352 个流行中文歌曲片段。其中，252 个片段为公开数据集，100 个片段保留作为 MIREX歌唱人声分离竞赛。每一个片段长度为 30 秒，采样率为 44.1 k Hz。歌曲片段包含左右两声道，左声道为人声、右声道为伴奏。

DSD100 数据集

是 2016 年 SiSEC 竞赛 MUS 子竞赛的标准数据集。12 支队伍提交了共 24 种方法，覆盖了近几年的世界一流方法，包括稳健主成分分析、REPET、全连接神经网络、卷积自编码器、循环神经网络、集成方法等。DSD100 数据集专门用于声音分离算法研究，包含 100 首完整的歌曲。划分成了训练集和测试集，各有 50 首。音乐包含 4 个音轨：鼓、贝斯、人声与其它伴奏，每一个音轨均为立体声。DSD100 数据集上的语音分离包含两个子任务，第一个是将混合信号分离成 4 个音轨，第二个是将混合信号分离成人声与伴奏，这样伴奏包含鼓、贝斯与其它伴奏。歌曲的长度在 2 分钟到 7 分钟之间，采样率为 44.1 k Hz。相比于 iKala 数据集，DSD100 数据集对于语音分离更困难。首先，DSD100数据集拥有更多的音乐流派，包含嘻哈音乐、摇滚音乐等流派。其次，一些音乐包含电子乐器，电子乐器的频谱与传统乐器的频谱有很大差异。此外，一些音轨在音乐中间拥有长时间的停顿。最后，少部分歌曲的人声音轨经过了非线性处理，谐波结构已被破坏。

数据扩增

数据扩增的核心思想是修改人声音轨与伴奏音轨的混合方式，从而生成更多的训练数据。

1. 随机选择一首音乐的人声音轨与伴奏音轨。以往生成训练数据的方法，只对同一首歌曲的人声音轨与伴奏音轨进行混合。将伴奏替换为另外一首歌曲的伴奏之后，这仍然是一首歌曲。因此，可以随机选择人声与伴奏进行混合。不同音乐长度不同，不能将整首音乐进行混合，但是这并没有关系，可以一次只混合一小段音乐。U-Net 的输入只需要连续 8 帧，对应到时间只有 256 ms。
2. 随机选择每一个音轨的起始时间。只需要混合非常短的一段音乐，因此可以随机地选择音轨混合的起始时间。这种方法与上面的方法，均会打破人声与伴奏的同步关系。人声往往在节拍的开始处开始，随机选择起始时间，这种同步关系便不复存在。然而，这种同步关系对语音分离的价值还有待进一步验证。初步的实验显示，同步关系对分离没有显著的影响。
3. 随机地放大或缩小信号的幅度。音量不应当影响分离的效果，因此可以在混合前随机地放大或者缩小信号的幅度。在实际中，会生成一个在 0.5 到 2.0 之间服从均匀分布的随机数，然后使用这个参数对人声与伴奏进行缩放。

数据扩增会在训练的过程中动态地生成。这样便不用把扩增后的数据保存起来，能够减小内存的占用。同时，神经网络的训练主要占用 GPU，在这段 CPU 空闲的时间便可以进行数据扩增，这样数据扩增并不会占用额外的时间。

基于频域的语音分离方法

首先，时域上的语音信号经过短时傅里叶变换(short-time Fourier transformation, STFT)后，将一维的时域信号变换到二维的频域信号。此时得到的是一个复数值，语音增强或者分离往往只利用STFT的幅值谱作为输入特征。经过增强或者分离算法，估计出目标语音信号的掩蔽值。然后，利用混合语音的幅值谱与估计出来的掩蔽值对应点乘积得到估计出来的目标语音信号的幅值谱。最后，利用增强后的幅值谱和原始的相位谱进行逆傅里叶变换(ISTFT)，得到增强后的语音信号。

基于频域的语音分离方法都存在一个共同的问题：相位不匹配，即增强的幅值谱和原始混合的相位谱进行ISTFT，会对语音分离的性能有一定的影响。因此，为了解决这个问题，在频域上的解决办法有两大类：1.对相位信息进行补偿；2.利用复数谱进行语音分离。关于相位补偿语音分离方法，Zhongqiu Wang, Deliang Wang等人提出了WA-MISI[INTERSPEECH 2018]和Sign prediction net[ICASSP 2019]等方法。关于复数谱的语音分离方法，Yuzhou Liu, Deliang Wang[TASLP 2019]等人提出了Deep CASA的方法。

深度聚类算法(deep clustering, DC)

深度聚类算法[Hershey et al, ICASSP 2016]的主要思想是将一个(T,F)维度的混合语音幅值谱特征，映射到一个更高维度(T,F,D)的深度嵌入式特征空间中，即对每一个时频单元(t,f)映射成一个D维的特征向量。这样，将二维特征映射到三维空间使得输入的混合特征更加具有区分性。最后，利用K-means聚类算法对该嵌入式向量进行聚类，得到估计出来的目标掩蔽值(binary mask)。其中映射过程是利用深度神经网络实现的

排列不变性训练准则(PIT)

对于说话人无关的语音分离来说其最大的难点就在于解决网络输出的排列组合问题。因为我们要把每个目标说话人的语音都给估计出来，所以对于网络来说怎么确定每个目标说话人的输出顺序是很难的一个问题。具体来说，对于一个两个说话人混合的问题，比如输入混合语音AB，网络第一个输出A，第二个输出B；当输入BC时，网络第一个输出C，第二个输出B；但是当混合语音是AC时，此时网络可能就不知道第一个该输出谁，这样就会存在矛盾。所以为了解决这个问题，俞栋老师在2017年的时候提出一种排列不变性训练准则(PIT) [Dong Yu et al, ICASSP 2017]要解决办法是输出所有可能的排列组合，然后选择均方误差(MSE)最小的组合作为优化目标。

基于深度嵌入式特征和区分性学习的语音分离方法

为了解决DC算法的缺点，Cunhang Fan等人在2019年的时候提出了一种基于深度嵌入式特征和区分性学习的语音分离方法(DEF-DL)[Cunhang Fan et al, INTERSPEECH 2019]。该方法主要是将DC看成一个特征提取器，利用DC算法提取一个具有区分性的深度嵌入式特征。这是因为利用DC可以将每个时频单元映射到一个更高维度的向量空间，从而获取深度嵌入式向量，利用无监督的K-means聚类算法就可以将混合语音分离出来，所以该深度嵌入式向量是一个很具有区分性的语音分离特征。为了使得目标函数可以直接定义在真实的目标幅值谱上，DEF-DL利用有监督的网络替换掉了K-means聚类算法。即将该深度嵌入式特征作为uPIT网络的输入特征，将目标语音分离出来。

基于时域的语音分离方法

解决相位不匹配的另外一类解决办法就是在时域上进行语音分离，即利用时域的波形点作为特征输入，输出为时域的波形点，这样端到端的训练就可以避免相位不匹配的问题。这是因为时域上包含了语音的所有特征(幅值谱和相位谱都包含在其中)，所以直接端到端的训练就可以避免相位不匹配的问题。基于时域的语音分离方法可以取得一个很好的分离效果，但是由于是逐点计算的，所以网络的batch size不能太大，这导致了模型训练速度比较慢的问题。

Conv-TasNet

Covn-TasNet是Yi Luo等人[Yi Luo, et al, TASLP 2019]在2019年提出来的一种语音分离方法，达到了当时最好的语音分离性能。在Covn-TasNet之前，Yi Luo等人在2018年的时候就提出了一种TasNet[Yi Luo, et al, ICASSP 2018]的语音分离方法，该方法中包含了LSTM层，而Covn-TasNet则是全卷积网络的模型，利用TCN结构替换掉了LSTM。本节重点讲述Covn-TasNet，TasNet就不做展开。Covn-TasNet由编码器，分离模块和解码器三个主要部分组成。编码器，利用一维卷积替换掉STFT对时域的波形点进行编码，用网络去学习编码参数。分离模块，利用编码器编码出来的特征作为输入，使用TCN结构作为分离模块。分离模块的输出为类似频域上的掩蔽值，最后与编码器的输出进行乘积得到最终的分离特征。解码器，利用转置一维卷积将分离后的特征解码出来得到分离后的目标语音信号。

Dual-Path RNN(DPRNN)

Covn-TasNet存在一个问题就是没有办法整合整句话的信息，即它只能关注到切割语音长度的信息。为了解决这个问题，Yi Luo和Zhuo Chen等人[Yi Luo, Zhuo Chen, et al, ICASSP 2020]在2020年提出了一种DPRNN的语音分离方法。DPRNN不光会考虑切割语音长度的信息，同时也会整合整句的信息，来使得分离网络可以关注到更长的语音信息。这也使得DPRNN刷新了语音分离的性能。

基于深度注意力融合特征和端到端后置滤波的语音分离方法(E2EPF)

针对频域上语音分离的相位不匹配问题和分离的性能不好，分离后的语音仍然含有干扰源的问题，Cunhang Fan等人在2020年提出一种基于深度注意力融合特征和端到端后置滤波的语音分离方法(E2EPF)[ Cunhang Fan, et al. TASLP 2020]。该方法利用后置滤波的思想去做语音分离，将语音分离分成两个阶段。第一个阶段使用频域的语音分离方法对混合的语音进行初步的分离。为了进一步增强预分离的语音，使用端到端后置滤波和深度注意力融合特征来提升分离后语音的可懂度。深度注意力融合的特征其主要作用是使分离后的特征可以动态的关注语音分离的语音，从而在进行端到端后置滤波的时候可以更好地分离出目标语音。

SonyNet 的算法（时域）

来自 Sony 公司的研究员设计了一个全连接神经网络用于语音分离神经网络SonyNet。这个神经网络在 DSD100 语音分离竞赛中取得了非常好的效果。DSD100 数据集是专门用于评估语音分离的数据集。数据集包含 100 首完整的音乐，分为训练集和测试集。训练集和测试集各包含 50 首音
乐。每一首音乐包含鼓、贝斯、人声和其它乐器 4 个音轨。每一个音轨是采样率为 44.1 kHz 的立体声。
语音信号首先降采样为 32 kHz，然后通过1024 点、重叠 50% 的短时傅立叶变换转换到时频域。频谱的幅度会作为神经网络的输入，频谱的相位会保留下来，用于后期逆短时傅立叶变换时声音信号的恢复。由于 DSD100 数据集包含 4 个音轨，这个系统包含 4 个神经网络分别对每一类声音进行分离。最后 4 个声音信号会通过维纳滤波器进行滤波处理。为了让神经网络获取一些上下文的信息，一帧频谱将同时往前和往后扩展 C 帧，用来预测一帧频谱幅度。实际中 C = 8，此时得到的输入向量长度为(2 × 8 + 1) × 513 = 8721，使用主成份分析可以将输入向量的长度减半变成 4360，
从而降低参数的数目，避免过拟合。神经网络共包含 5 层全连接层，激活函数为ReLU。隐藏层与输出层的节点数目均为 513。

JitongNet 的算法

Jitong Chen 设计了一个全连接的神经网络用于语音降噪神经网络JitongNet。语音降噪也是语音分离问题的一种，需要从混合声音信号中分离出语音信号。虽然这是一个用于语音降噪的神经网络，但是在设计神经网络时，研究者并没有考虑噪声信号的特殊性。语音分离与语音降噪的最大的区别在于生成训练数据所使用的数据集，因此同样的网络结构也可以用于人声与伴奏的分离。生成训练数据使用的语音数据来自 IEEE 英语语句数据集。语音采集于一位男性，采样率为 44.1 k Hz。每一个句子包含 5 个单词。背景噪音数据来自 Auditec CD。噪音包括餐厅噪音和嘈杂人声噪音。
JitongNet 系统的输入是混合有噪音的语音信号，具体的分离流程如下：1. 降采样：混合信号首先降采样到 16 kHz。2. 特征提取：JitongNet 唯一使用的特征是耳蜗时频图。在计算耳蜗时频图时，混合声音信号首先经过 Gammatone 滤波器组滤波处理，滤波器的冲击响应是一个受到 Gamma 分布函数调制的正弦信号。滤波器组共包含 64 个滤波器，中心频率分布在 50 到 8000Hz 之间。滤波器的等价矩形带宽均相等。对每一个信道的信号以 20ms 为帧长，10ms 为跳跃距离，计算每一帧内的能量，得到的便是耳蜗时频图。3. 深度神经网络预测：23 帧耳蜗时频图连接成为一个长度为 23 × 64 = 1472的向量作为神经网络的输入。神经网络预测 5 帧的理想浮值掩膜，每一帧将被预测 5 次，5 次预测的结果经过平均后作为最终结果。多次预测并取平均起到了一种集成学习的效果，具有更好的分离效果。4. 时频掩膜：由于神经网络输出的是浮值掩膜，需要将浮值掩膜乘以输入的耳蜗时频图得到最终的估计。5. 语音合成：使用 Gammatone 滤波器组生成时频图表示是一种不可逆的操作。Weintraub提出了一种重新合成声音信号的方法。6. 上采样：将语音信号上采样恢复成原始的 44.1 k Hz。
虽然 JitongNet 的系统结构与 SonyNet 的系统结构有很大差异，JitongNet 的神经网络却与 SonyNet 很相似。JitongNet 同样为全连接神经网络，包含 5 个隐藏层。每个隐藏层包含 2048 个神经元，全连接层使用 ReLU 作为激活函数。输出层包含5 × 64 = 320 个神经元。为了避免过拟合，每一层隐藏层的输出还经过了 dropout层。Dropout 层会以 0.2 的概率随机断开连接。JitongNet 训练时使用的是小批量梯度下降，每一批包含 256 个样本，均方误差为损失函数。

基于卷积降噪自编码器的算法

Pritish Chandna 提出使用卷积降噪自编码器PritishNet来进行语音分离。卷积自编码器是卷积神经网络与自编码器的结合。其中，卷积神经网络是图像分类中效果最佳的神经网络，自编码器通常用于数据的压缩。
卷积神经网络于 20 世纪 90 年代提出，早期被用于识别手写数字与人脸，之后卷积神经网络的研究经历了一段低潮。直到在 2012 年，卷积神经网络在 ImageNet 大规模图像分类竞赛中取得了巨大的成功才重新复出。对于二维数据，比如图像，局部区域的值具有很高的相关性，形成了具有区分性的模式，这些模式在图像的不同区域重复出现。卷积神经网络很好地利用了这一点，让一个神经元只与前一层一个局部区域的神经元相连。这种局部连接性，极大地减少了参数的数目，同时让神经网络具有更好的泛化性能。当使用频谱作为特征时，输入信号经过短时傅立叶变换得到时频图。

与自然图像类似，时频图是一个二维矩阵，同时存在重复出现的模式。这种重复同时存在于频率轴与时间轴。在频率轴，根据声音产生的规律，声音中存在谐波，谐波的频率为基音频率的整数倍。时间轴存在两个不同时间尺度的重复性。在很短的一段时间内，由于声音具有短时平稳性，连续数帧的频谱变化很小。在一段很长的时间内，这种重复性是鼓点的循环、相同和弦的演进或是人类语音中有限的音素。基于这种重复性，Rafii 与 Pardo 提出了基于重复性的人声与伴奏分离方法。由于时频图与图像的相似性，许多研究者也提出使用卷积神经网络来进行声音。

基于循环神经网络的算法（频域）

语音信号是一个时间序列，当前时刻的频谱与前一时刻具有很强的相关性。一种利用相关性的方式是将连续数帧频谱作为输入。当增加帧数时，神经网络权重的数目会随着输入维度的增加而增加，因此建模的帧数会受到限制。另一种方式是使用循环神经网络，它通过引入前一时刻隐藏层的输出能够建模无限久远的依赖关系。

Po-Sen Huang 提出了一种基于循环神经网络的单通道人声与伴奏分离框架PosenNet。混合信号首先会进行短时傅里叶变换得到频谱，其中傅里叶变换的点数为 1024，跳跃距离为 512。频谱是
PosenNet 唯一使用的特征。频谱的幅度会输入到 PosenNet 用以预测人声与伴奏的频谱幅度。最后频谱幅度会进行逆短时傅里叶变换合成语音。

麦克风

1 驻极体电容麦克风

ECM，Electret Capacitance Microphone。驻极体电容器麦克风有两块金属板，其中一块表面涂有驻极体薄膜，另一块金属板接至场效应管的栅极。声电转换的关键元件是驻极体振动膜，它是一片极薄的塑料膜片，在其中一面蒸发上一层金属薄膜。然后再经过高压电场驻极后，两面分别驻有异性电荷。膜片的蒸金面向外，与金属外壳相连通。膜片的另一面与金属极板之间用薄的绝缘衬圈隔离开。这样，蒸金膜与金属极板之间就形成一个电容。当驻极体膜片遇到声波振动、摩擦时，膜片上会出现表面电荷，引起电容两端的电场发生变化，从而产生了随声波变化而变化的交变电压。在驻极体话筒中，有一只场效应管做预放大，因此驻极体话筒在正常工作时，需要一定偏置电压，一般不大于10v。

驻极体膜片与金属极板之间的电容量比较小，一般为几十pF。因而它的输出阻抗值很高(Xc=1/2~tfc)，约几十兆欧以上。这样高的阻抗是不能直接与音频放大器相匹配的。所以在话筒内接入一只结型场效应晶体三极管来进行阻抗变换。场效应管的特点是输入阻抗极高、噪声系数低。普通场效应管有源极(S)、栅极(G)和漏极(D)三个极。这里使用的是在内部源极和栅极间再复合一只二极管的专用场效应管。接二极管的目的是在场效应管受强信号冲击时起保护作用。场效应管的栅极接金属极板。这样，驻极体话筒的输出线便有三根。即源极S，一般用蓝色塑线，漏极D，一般用红色塑料线和连接金属外壳的编织屏蔽线。

驻极体电容话筒频响范围较窄，但灵敏度高，体积可以做的很小，适用与语言拾音，尤其在舞台演出时用作无线话筒拾音。

MEMS麦克风。是一种具有ECM功能的固态声音感应芯片，用于手机等设备中。

2 动圈麦克风

它内部主要由磁铁、线圈、振动膜、升压变压器、软铁等构成。磁铁和软铁构成磁路，磁场集中于芯柱和外圈软铁所形成的缝隙中。在软铁前面装有振动膜，它上面带有线圈，正好套在芯柱上，位于强磁场中。当振动膜受声波压力前后振动时，线圈便切割磁力线而产生感应电动势，从而将声波信号转换成电信号。

动圈式传声器的频率响应为50～10000Hz，输出电平为50～70dB，无方向性。

3 铝带式麦克风

Ribbon Microphone。在磁铁两极间放入通常是铝或杜拉铝质料的带状金属薄膜，此薄膜受声音震动时，因电磁感应而生讯号。

扬声器

例子

用手机马达制作扬声器

苹果手机5个线性马达（并联？） + 蓝牙模块（包含音频功放芯片）+ 电源 + 手机控制播放音频 + 马达接触的任意物体 = 扬声器

自制扬声器：结构略有区别，原理一样。多个纽扣磁体吸附成一个圆柱形，在圆柱形外套一个纸圈，纸圈上缠绕电线，再制作振膜和固定体。

如何在家自制扬声器

种类

【电声技术】扬声器1——振膜的振动，辐射阻抗，不同辐射体的辐射阻抗，指向性

1、磁式扬声器：在永磁体两极之间有一可动铁心的电磁铁，当电磁铁的线圈中没有电流时，可动铁心受永磁体两磁极相等级吸引力的吸引，在中央保持静止；当线圈中有电流流过时，可动铁心被磁化，而成为一条形磁体。随着电流方向的变化，条形磁体的极性也相应变化，使可动铁心绕支点作旋转运动，可动铁心的振动由悬臂传到振膜（纸盆）推动空气热振动。

2、静电扬声器：它是利用加到电容器极板上的静电力而工作的扬声器，就其结构看，因正负极相向而成电容器状，所以又称为电容扬声器。两块厚而硬的材料作为固定极板，极板上有此可以透过声音，中间一片极板则用薄而轻的材料作振膜（如铝膜）。将振膜周围固定、拉紧而与固定极保持相当距离，即使在大振膜上，亦不致与固定极相碰。

3、压电扬声器：利用压电材料的逆压电效应而工作的扬声器称为压电扬声器。电介质（如石英、酒石酸钾钠等晶体）在压力作用下发生极化使两端表面间出现电势差的现象，称之为“压电效应”。它的逆效应，即置于电场中的电介质会发生弹性形变，称为“逆压电效应”或“电致伸缩”。

4、离子扬声器：在一般的状态下，空气的分子量中性的、不带电。但经过高压放电后就成为带电的粒子，这种现象称游离化。把游离化的空气利用音频电压振动，则产生声波，这就是离子扬声器的原理。

5、火焰扬声器：当空气和煤气燃烧的火焰通过电极，电极加有直流电压和高频信号，火焰受音频信号调制而发声。火焰几乎无质量，声音动态较好。但它有致命的缺点：不安全，不方便。

6、气流调制扬声器：又称气流扬声器。它是利用压缩空气作能源，利用音频电流调制气流发声的扬声器。它由气室、调制阀门、号筒和磁路组成。压缩空气气流由气室经过阀门里，受外加音频信号调制，使气流的波动按照外加音频信号而变化，同时被调制的气流经号筒耦合，以提高系统的效率。它主要用做高强度噪声环境试验的声源或远距离广播等。

磁式扬声器

扬声器主要由振膜、音圈、磁铁和外壳组成。振膜是扬声器的核心部分，它负责将电信号转化为声波。音圈是振膜的驱动器，通过电流后会在磁场中产生力，从而驱动振膜振动。磁铁提供了磁场，用以维持音圈的位置。外壳则保护内部组件，并提供适当的空间。

工作过程：1. 通电：当扬声器接收到电流时，音圈会产生磁场（法拉第电磁感应定律），与磁铁产生的磁场相互作用。2. 振动：磁场的相互作用会使振膜产生振动（洛伦兹力定律），从而将电能转化为机械能，产生声波。3. 能量转换：在扬声器的整个振动过程中，电能和声能实现了相互转换。这个过程是在电路和振膜之间不断进行的，最终产生了我们可以听到的声音。

扬声器的分类：根据不同的工作原理，扬声器可分为电动式（TEM）、电磁式（IE3S）、压电式（BTL）等类型。

扬声器的性能指标包括频率响应、灵敏度、指向性等。频率响应表示扬声器的声音输出范围，即低频和高频的表现能力；灵敏度表示扬声器对声音输入的响应能力；指向性则表示扬声器在不同方向上的声音辐射特性。这些指标直接影响着音响系统的音质表现。

如图，3个关键部件，永磁体、线圈、振膜。黑色是一个环形永磁体，永磁体上下是固定装置。波浪纹圆形片是振膜，振膜中心的纸缠绕线圈，声音信号接入该线圈，

利用动画全方位的解析扬声器（喇叭）原理

扬声器性能测试

扬声器的电声性能测试

音频接口

1 TRS

3.5mm小三芯音频线。Tip（尖）、Ring（环）、Sleeve（套）。

6.35mm接头音频线。6.35接头可分为：大三芯TRS与大二芯TS。一般用于连接电吉他、调音台等设备。区别：大三芯是可作平衡接法或双声道接法。

TRS就是三触点的接口，即左右声道加一个接地，我们常称为三段式插头。TRRS则有四个触点，可传送左声道、右声道、接地及收音麦的讯号，称为四段式插头。常用的手机耳麦是TRRS四段式插头的，它不仅能通话，还能通过传送讯号控制音乐播放。

2 莲花头（RCA）音频线

多用于点歌机、DVD、电视以及广播设备等连接。莲花线属于单声道非平衡传输，双根莲花线可组成立体声。RCA接口采用同轴传输信号的方式，中轴用来传输信号，外沿一圈的接触层用来接地。每一根RCA线缆负责传输一个声道的音频信号，因此，可以根据对声道的实际需要，使用与之数量相匹配的RCA线缆。比如要组双声道立体声就需要两根RCA线缆。

3 卡侬XLR

卡农头(XLR)音频线。多用于扩声系统中，话筒、声卡、调音台及处理器等设备间的连接，卡农线属于平衡传输，抗干扰性强。我们通常见到的XLR插头是3脚的，当然也有2脚、4脚、5脚、6脚的，比如在一些高档耳机线上会看到四芯XLR平衡接头。XLR接口与“大三芯”TRS接口一样，可以用来传输音频平衡信号。

平衡信号与非平衡信号。声波转换成电信号后，如果直接传送就是非平衡信号，如果把原始信号反相180度，然后同时传送原始信号和反相信号，就是平衡信号。平衡传输就是利用相位抵消原理，将音频信号传输过程中受到的其他干扰降至最低。

语音增强理论与实践 [（美）罗艾洲著；高毅等译] 2012年版

speech enhancement

本书内容来源于语音信号处理课程。该领域的兴趣来源于对噪声抑制算法的研究，这些算法可以帮助听障人士(人工耳蜗植入者)在噪声环境下更好的交流。全书内容分为三个部分。第一部分介绍数字信号处理以及语音信号的基础知识。第二部分介绍过去20年中所提出的各类语音増强算法。第三部分介绍评估语音增强算法性能的方法和手段。

语音增强算法能减轻或者抑制背景噪声，因此有时也被称为噪声抑制（noise suppression）。应用场合包括在嘈杂的环境中说话，或者语音受到通信信道噪声的影响。例如，在通过蜂窝式移动电话进行语音通讯时，发送端语音往往带有汽车噪声或者餐馆中的嘈杂声等背景噪声。蜂窝电话标准中，声码器会被用来对语音进行压缩编码，语音增强算法可以用作声码器前端的预处理器。在军用通讯系统中，对语音可懂度的要求通常高于对语音质量的要求。实际上，大多数算法只是改善了语音的质量。在减少背景噪声的同时，引入语音的失真，进而损伤了语音的可懂度。语音增强的主要挑战就在于在不明显引入信号失真前提下，有效抑制噪声。声学噪声对于纯净信号而言有可能是加性的，也可能是卷积性的，比如房间里产生了严重回声的情况。

语音和噪声声强级通过声级计来测量，测试结果通过 db SPL( decibel sound pressure level，分贝声压级)来表示。DB SPL是对0.0002dynes/cm2（人耳可以听到的最小声压）的相对声压。人们面对面交流的典型距离是1米，距离每增加一倍,声强级减少6dB。在乘坐火车时，人与人之间交流的距离可能减少到0.4米。

声级计( sound level meters)是最基本的噪声测量仪器，它是一种电子仪器，但又不同于电压表等客观电子仪表。在把声信号转换成电信号时，可以模拟人耳对声波反应速度的时间特性；有不同灵敏度的特性以及不同响度时改变特性的强度特性。声级计是一种主观性的电子仪器。

AdobeAudition音视频处理软件

Spleeter

Spleeter 是 Deezer 源分离库，带有用 Python 编写并使用 TensorFlow 的预训练模型。它使训练音乐源分离模型变得容易（假设您有一个孤立源的数据集），并提供已经训练过的最先进的模型来执行各种风格的分离。

Spleeter项目官网传送门：https://research.deezer.com/projects/spleeter.html
Spleeter源代码仓库传送门：https://github.com/deezer/spleeter/

音频质量客观评价指标

Objective Evaluation Metrics

The following six metrics are used to evaluate state-of-the-art competitors. All these metrics are better if higher.

• SDR (Vincent, Gribonval, and F´evotte 2006): Signal-to-distortion ratio from the mir eval library. The SDR is a very common metric to evaluate source separation systems [22], which requires to know both the clean signal and the enhanced signal. It is an energy ratio, expressed in dB, between the energy of the target signal contained in the enhanced signal and the energy of the errors (coming from the interfering speakers and artifacts). Thus, the higher it is, the better.

• PESQ: Perceptual evaluation of speech quality(from -0.5 to 4.5).
• CSIG (Hu and Loizou 2007): Mean opinion score (MOS) prediction of the signal distortion attending only to the speech signal (from 1 to 5).
• CBAK (Hu and Loizou 2007): MOS prediction of the in- trusiveness of background noise (from 1 to 5).
• COVL (Hu and Loizou 2007): MOS prediction of the overall effect (from 1 to 5).
• SSNR: Segmental SNR [35, p. 41] (from 0 to ∞).
• STOI：短时客观可懂度(Short-Time Objective Intelligibility), 0-1范围，值越大，可懂度越高.

matlab音频工具箱

声源分离函数：separatespeakers(声源，采样频率，分离数量)

app：audio test bench，用代码修改剪辑音频，

参考文献：

1、2018年声音计算“大事记” - 知乎 https://zhuanlan.zhihu.com/p/66589739

2、DCASE挑战赛原始提案文件（详细信息）_cpongo7的专栏7-CSDN博客 https://blog.csdn.net/cpongo7/article/details/100994161

3、[MIREX] MIREX评测介绍 - CarlGoodman - 博客园 https://www.cnblogs.com/littletail/p/5328586.html

4、MIREX 维基百科 https://www.music-ir.org/mirex/wiki/MIREX_HOME

5、如何分离不同说话人的语音信号？深度学习单通道语音分离方法最新综述 - 知乎 https://zhuanlan.zhihu.com/p/194329601

6、梁瀚明. 基于深度学习的单声道人声与伴奏分离算法研究[D]. 电子科技大学, 2018.

7、语音增强理论与实践 [（美）罗艾洲著；高毅等译] 2012年版

8、使用spleeter分离音频文件中的伴奏和人声_@菠萝菠萝哒的博客-CSDN博客_spleeter分离伴奏和人声 https://tancolin.blog.csdn.net/article/details/122572573?spm=1001.2101.3001.6650.5&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromBaidu%7ERate-5-122572573-blog-124568150.t0_edu_mix&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromBaidu%7ERate-5-122572573-blog-124568150.t0_edu_mix&utm_relevant_index=7

9、语音质量指标Python（PESQ、STOI、SegSNR、LLR、WSS、CD、LSD、CSIG、CBAK、COVL）_王延凯的博客的博客-CSDN博客_python计算pesq https://blog.csdn.net/weixin_38468077/article/details/108567717

10、一个开源的音频分离深度学习项目_Y_Hungry的博客-CSDN博客 https://blog.csdn.net/weixin_41012767/article/details/126019164

11、MEMS 麦克风中数字 PDM 和 I2S 接口之比较-设计应用-维库电子市场网 https://www.dzsc.com/data/2022-07-22/126868.html

12、I²S MEMS麦克风 - CUI Devices | Mouser https://www.mouser.cn/new/semiconductors/cui-i2s-mems-microphones/n-5gcbZ378tyw

13、【通信电子】使用MATLAB和Simulink探索音频开发_哔哩哔哩_bilibili https://www.bilibili.com/video/BV1yH4y1c7Z9/?spm_id_from=333.1365.list.card_archive.click&vd_source=28b3868c0af23aa93c8a1590fa7a0ae1

14、

15、

16、