读论文《对感知音频质量的客观评估综述---对其应用领域依赖性的评估》

最新推荐文章于 2025-05-30 03:03:04 发布

绿籽

最新推荐文章于 2025-05-30 03:03:04 发布

阅读量2.8k

点赞数 3

分类专栏：论文文章标签：音视频

本文链接：https://blog.csdn.net/weixin_45282741/article/details/121937006

版权

论文专栏收录该内容

1 篇文章

订阅专栏

摘要

1、在过去几十年间，一些使用计算机去评测感知音频质量的方法被开发出来。这些客观评估方法通常是为特定应用领域设计和服务的。
（背景：出现一些客观评估方法。）
2、由于这些方法很方便，他们常常被用于源设计领域之外的地方，即使并不清楚他们在这种情况下是否提供了可靠的质量评估。
（被“滥用”。）
3、本文的工作就是研究了（广为人知的先进的）客观评估方法和真人感知得分之间在音频编码和信源分离两个方面的相关性。
（工作：研究客观评估方法和真人评估得分的相关性，基于的是音频编码和信源分离两方面。）
4、一下客观评估方法被考虑到了：fwSNRseg, dLLR, PESQ, PEAQ, POLQA, PEMO-Q, ViSQOLAudio,(SI-)BSSEval, PEASS, LKR-PI, 2f-model, and HAAQI.此外还提出了一个新颖的评估方法（SI-SA2F）,这个方法基于 2f-model和一种基于BSS-Eval的信号分解。
（方法：罗列了客观评估的方法提出一个新方法。）
5、文章使用了来自 7个关于音频编码的听力测试和 7个关于信源分离的听力测试的感知得分作为相关性分析的真实数据。
（数据：两个评价标准均使用7组感知数据。）
6、结果显示，2f-model的表现在上述两方面都远远出色于其他模型。并且这表明用于训练方法的数据集和一个健壮的基础听觉模型是实现（通用的，领域无关的）客观评价方法的重要因素。
（结果与总结：2f-model效果更好，得出结论。）

Ⅰ. 导言

1.1、BAQ（基本音频质量）定义了一种通用的、与领域无关的质量标准来评价被测信号的整体质量。BAQ是音频编码的主要评价标准之一，也被用于盲源分离领域的评价标准。
（BAQ简介和存在作用。）
1.2、受控环境下的听力测试是评估BAQ最可靠的方法。但是这些耗时且昂贵的评估方法在所有的开发阶段（例如一个新的音频编解码器）都不容易实现。最近由于信冠疫情带来的社交距离措施给在实验室进行同理测试带来了另一个困难。
（原始的方法因时间成本疫情受限。）
1.3、因此，非常需要客观评估方法，即能够尽可能接近人类评估BAQ的计算方法。
（客观方法存在的必要性。）

2.1、这些模型通常是根据音频材料和失真类型设计和训练的，失真类型代表（这个模型）打算使用评估的特定领域。
（训练一个模型需要用到的两部分）
2.2、一个好的评估方法应该能够推广到在其开发过程中没有遇到过的音频材料上，只要是遇到了应用领域典型的失真。一个通用的评估方法也将适用于来自不同应用领域的从未遇到过的失真。
（什么是好的评估方法和通用的评估方法）
2.3、通用性或者领域无关性在一定程度上是隐含在模型中的，即使没有明确的证据表明这是一个有效的假设。
（意思是不管多么好或者通用的评估方法，虽然没有证据，但是一定是有它自身局限性和领域依赖的？）
2.4、一个有趣的例子是PESQ[4]，它是20年前为评估电话系统的语音质量而最终确定的。如今，它被广泛用于评估可能引入非常不同类型失真的方法，例如基于深度神经网络(DNNs)的语音分离、歌唱声音提取和去混响，例如助听器[5]–[9]。PESQ也被提出作为监督学习的损失函数[10]，[11]。
（PESQ的例子，如今使用的非常广泛，远超出其设计初衷。）
3.1、许多作者已经研究了客观测量和感知分数之间的相关性，但通常是在特定的领域应用中，或者是在有限数量的感知基础事实数据中[7]，[12]–[27]。
（说明本文和其他工作的区别，领域限制和数据）
4、本文旨在通过一下贡献阐明这些问题：

回顾了最先进的侵入性客观评估方法，并简要介绍了基于DNN的非侵入性评估方法。(目前不懂)
分析了 7次音频编码听力测试和7次源分离听力测试的真实数据的相关性。调查了不同领域的预测泛化能力。所使用的听力测试基于MUSHRA（（Multi-Stimulus Test with Hidden Reference and Anchor）全称为多激励隐藏参考基准测试方法。最早用于流媒体与通信的相关编码的主观评价。），适用于评估音频信号的中间质量。
提出基于2f-model的新方法，使用基于BSSEval的信号分解，用于处理可感知的人工制品（音频？）的相关性。

Ⅱ.客观评估方法

这一节回顾了最先进的客观评估方法。这部分工作的关注点在于侵入性方法，即用理想的参考信号进行比较，以估计被测信号的音频质量。这部分唯一的新贡献在M部分。没有时间和先前知识的读者可跳过并从第三部分开始。
从A-C描述的评估方法属于语音增强领域，从D-G的评估方法是为音频编码领域开发的。从H-M专注于音源分离。N介绍了HAAQI方法，这个是为助听器设计的。最后O部分讨论了利用深度学习的最新发展。

A. Frequency-Weighted Segmental SNR (fwSNRseg)

…先看第三部分。

Ⅲ.真实主观得分

本节描述了主观参考评级的数据集，这些数据集将用作以下各节相关性分析的真实数据。表一给出了这些数据集的概述以及每次听力测试的评分。我们的考虑范围包括音频编码域中的7次听力测试(来自2个独立来源) 和音源分离域中的7次听力测试(也来自2个独立来源)。真实感知分数由 每个信号的所有评分的平均值组成。
所有的听力测试都遵循MUSHRA或类似MUSHRA的评估中等质量的音频信号的程序。所考虑的听力测试的感知分数跨越了从差到优的全质量等级，这是在以下部分解释相关结果时要考虑的一个重要因素。对于仅跨越一小部分质量等级或仅观察到小损伤的领域，需要进一步研究。

A. 音频编码

1）编码人工制品：在这组听力测试中，16名参与者评估了具有不同单声道编码人工制品的以受控方式失真的信号质量，来模拟次优音频编码操作点。每个失真应用到不同的 8个一组的音乐信号上，各组之间没有重叠。考虑了以下5种失真，每种失真都适用于5种不同的粗糙质量等级：

鸟鸣，即通过 spectral holes or islands（不懂） 生成的鸣声人工制品。
带宽限制（BWLim）,即具有自适应交叉频率的低通滤波版本。
预回声，即模糊的起始音、不准确的敲击时间和语音信号的重影声音。
音调或和声不匹配，即模拟次优带宽扩展，其中频率高于给定的交叉频率的所有频谱内容都被剩余的较低频谱部分的 scaled copy(缩放副本？) 代替。
未屏蔽噪声，即模拟一个次优带宽扩展，所有的频率高于给定的交叉频率的频谱内容都被具有相同 Spectral envelope（频谱包络？） 的随机噪声替代。
（上面这部分应该在讲给“人工制品”，也就是用于测试的（具有不同单声道编码的）音频以这种方式（八个一组，没有重复）添加这五种失真。）
2） MPEG USAC（ Unified Speech and Audio Coding 统一语言和音频编码）验证测试：
2.1、运行了三个验证测试来评估统一语音和音频编码(USAC) [67]的BAQ，在这些测试中，USAC在不同比特率下与AMRWB+和HE-AAC v2 （音频文件保存的不同方法） 进行了比较。
(评估 USAC 的 BAQ，应该在证明这个听力测试集的有效性？)
2.2、我们考虑测试1 (USAC t1)和测试3 (USAC t3)。排除听众培训期间使用的项目，USAC t1和USAC t3包含相同的24个音频摘录。USAC t1仅考虑每个项目的第一个通道，单声道信号以低比特率 (8-24 kbps)编码。USAC t3考虑立体声信号，并以高比特率(32-96 kbps)进行编码。这24个项目包括纯音乐样本、纯语音样本以及混合语音和音乐样本。其中，5个项目完全没有说话或唱歌的声音，7个项目只有说话。不考虑低通anchor(锚定?)和参考条件，剩下 9个条件? 用于USAC t1，8个条件用于USAC t3，都是真实世界的编码条件。
（测试集的介绍，t1是仅考虑第一个通道，低比特率编码；t3考虑立体声信号，高比特率编码。包含纯文本、纯音乐等，满足一些编码条件。）
2.3、来自13个不同测试点的62名听众参与了USAC t1的前期训练和后期筛选(但并非所有人都对所有信号进行了评级)。USAC t3涉及来自6个站点的29名听众。
（听众的选择。）

B. 音源分离

1）PEASS数据集：
1.1、PEASS数据集用于PEASS的开发。数据集包含分离的音源和特殊定义的锚定信号，包括收听者对全局质量(即BAQ)的评级、目标源的保留、其他源的抑制以及每个音频信号没有额外的人工噪声。
（PEASS数据集特征。）
1.2、以下评估考虑了基于全球质量的评级(称为PEASS OPS LT)和基于无额外人工噪音的评级(称为PEASS APS LT)。
（下面的评估基于两种衡量标准）
2） Subjective Evaluation of Blind Audio Source Separation (SEBASS)盲音源分离的主观评测：
2.1、SEBASS数据集是对来自盲源分离系统和知情源分离系统的分离音频源在BAQ的标准下进行的五种听力测试的集合。这些听力测试被称为:SASSEC、SiSEC08、PEASS BAQ、SiSEC18和SAOCDB。
（概括SEBASS来源）
2.2、在每个听力测试中，除了SAOCDB，听众对（作为基于社区的信号分离评估活动的一部分提交的分离信号）进行评级，如数据集名称所示。
2.3、PEASS BAQ 包含来自 PEASS OPS LT 的信号，但是评级来自 [16]。就听力测试设计而言，与PEASS OPS LT的主要区别在于，基于 PEASS BAQ的听众没有被要求将最差项目评为0 。要求给最差项目评分为0不符合MUSHRA标准。
（基于两种衡量标准的最大的不同是有没有要求将最差的评为0分）
当MPEG空间音频对象编码(SAOC) [68]提供的增强型t/f渲染架构用于声音再现[69] 时，SAOC数据库包含的分数能够调查出它对一个分离的源的质量的影响。来自SASSEC的已经分离的源信号被用于驱动增强渲染架构，并且产生的信号与原始分离信号一起被评估。对于原始分离信号的评级在下文中不被视为SAOC DB的一部分，因为相同信号的评级已经包含在SASSEC中。作为一项技术，SAOC是一个有趣的案例，其中(知情的)源分离和音频编码重叠[68]，[70]，[71]。

Ⅳ.相关性分析：指标

为了评估第二部分的客观评测方法，我们使用第三部分的主观分数和客观方法的输出来进行相关性分析。对于每一个听力测试，皮尔逊和肯德尔相关系数被计算出来。
来自数据集的所有信号都被重新采样到48千赫或16千赫(最高支持的采样频率)。

皮尔逊和肯德尔相关性

（皮尔逊相关系数的计算和意义。 首先给出计算公式 = 协方差/标准差乘积。皮尔逊相关系数描述的是X和Y之间的线性相关性。相关系数=1表示完全正线性相关；=0表示二者没有相关性；=-1表示完全负线性相关。我们只关心相关性是否强烈，因此对皮尔逊相关系数取绝对值，也就是将范围缩小为0-1之间。)
（pearson的局限： 即使X和Y有完全相同的元素，相关性也可以能远小于1。所以引出肯德尔等级相关性，这个是来评估序数关联或者评级关联的。）
（给出肯德尔相关系数计算的公式，。比如我们有8个主观分数和8个客观分数，一个主观分数和一个对应的客观分数是一个pair，将pair两两分组，一共是8 * 7/2=28组，对于每一组来说，主管分数和客观分数如果趋势一样，比如主观B pair比Apair分高，那么根据c（X,Y,i,j）来说，趋势一致=1。最后映射到sin上。 （不懂为什么要映射，范围都是-1-1啊…） ）
（优点： 这两种相关性指标都具有 度量数据范围无关 性，不同规模上的输出的度量进行了比较。比如，PEASS和2f-model方法的评分在0-100之间，热PEAQ方法在-4-0之间，一些在参考论文中提出的不能做到数据范围无关方法不被采用。）
（做了统计显著性检验，后面的表将可以拒绝零假设（假设的内容也许是“二者没有关联。”）的相关系数后面打了星号 * 。）

综合得分

进行整合分析，即许多实验的相关系数（即主观数据池）被整合到一个分数中，叫做综合得分。这里的整合是将相关系数进行fisher-z变换，计算该域中的平均值(其中所得系数的采样分布近似正常)，并反转变换[74]。
在计算给定的评估方法的综合得分时**，不考虑在开发该方法期间使用的数据集的系数**。给出fisher-z变换的公式。
其中的参数可以被皮尔逊相关系数或者肯德尔相关系数替代，从而得到对应的综合得分。在后面的表三、四、五倒序展示了依据皮尔逊相关系数对客观评价方法的评价。
综合得分couples 之间的差异的统计显著性分析也在Fisher-z域中被测试了。同样对于这个统计检验，对于two-tail方法的t值α = 0.05被用作显著性阈值。表三、表四和表五中的A列和B列显示了最小的统计显著性差异。下面举了个例子，没有很懂。