DXOMark是如何评价音频质量的

最新推荐文章于 2024-07-24 23:56:24 发布

音视频开发进阶

最新推荐文章于 2024-07-24 23:56:24 发布

阅读量1.7k

点赞数

智能大屏手机刚刚普及的时候，屏幕尺寸是消费者选购手机时最关注的因素。近年来，各大厂商走火入魔一般地在相机方向发力，于是拍照功能又成了消费者主要关注的因素之一。然而，随着自媒体与vlog的兴起，越来越多的用户开始使用手机录制、观看音视频内容，可以预见，手机音频质量的重要性未来将会大大增加。

10月份，著名的相机与手机影像评测机构DXOMark官网上线了手机音频质量评价标准与结果。尽管近年来DXOMark常被调侃为“被充值的评测机构”，但我认为这依然不影响他的总体权威性（要不为啥各大厂家都喜欢给他们“充值”，而不是给国内这一大票评测媒体？）。下面我们来看看DXOMark是如何制定音频质量评价标准，又是如何进行质量评价的，想必其中一定有值得我们学习的地方。

总体评价方法与环境

DXOMark的手机音频质量评价分为两个大类：播放质量与录音质量。对于每一个大类，又包含各种评价指标，将各个指标的评价结果加权汇总后即得到当前大类的总体评分。评价方法则包含客观质量评价和主观质量评价两部分。在客观评价中，依据频谱图，以及声级计等设备给出的结果进行评分。在主观评价中，依据有多年经验的声学专家所给出的主观感知结果进行评分。

虽然DXOMark没有明说，但我们大胆猜测这些声学专家应该很多都有“金耳朵”认证

测试环境分为两部分：消音室和听音室。

在消音室中，声波反射被完全杜绝，外界噪音也被完全隔离开。测试播放质量时，在消音室中用麦克风记录手机播放结果；测试录音质量时，还会在消音室中放置额外的扬声器来模拟各种真实用户使用场景。

在听音室中，环绕被测设备和人员放置有数个扬声器。这些扬声器的布局被精心设计过，从而可以几乎完全重现真实用户使用场景，比如繁忙的大街或安静的书房。在听音室中，既可以对单一设备进行评价，也可以同时比较多台设备的音频质量。

根据DXOMark的介绍，他们会先用多个麦克风以特定的布局录制真实用户场景的环境音，然后在听音室中将扬声器依照相同的布局放置，从而实现对真实场景的重现。

播放质量评价

在不同的使用场景下，用户所关注的播放质量因素有所不同。举个例子，在玩吃鸡这样的射击游戏时，用户更关注游戏枪声或其他音效的空间感，因为更好的空间感有助于玩家定位声音的方向。而在手机上看电影或听音乐时，其他质量因素则可能对用户体验产生更大的影响。

再比如，当用户听歌时，他们一般会竖屏握持手机，这又与玩游戏时横屏握持的使用场景有很大区别，相应的影响因素也不同。举个例子，当用户观看网络主播的视频时，往往更关注人物说话的声音，这又与听歌时的关注点会有所区别。

基于此，DXOMark设计的播放质量评价指标包含以下几个维度：音色、空间感、力度、音量和音损。同时，这些评价维度根据不同的使用场景会有不同的权重值（不过DXOMark没有公布具体的权重值）。

音色

音色乍一听是很玄学的东西。DXOMark对良好音色的定义则是：设备应该能在特定场景下呈现符合用户期望的正确频率输出。比如前面提过的网络主播视频的例子，如果设备能够在此时正确地呈现出用户想要的人声（对应于中频部分），那么我们就说设备在这一场景下的音色是优秀的。

这给我们的启示是：设备的音效应该能够根据当前内容进行自适应的调整。

空间感

良好的空间感可以让音频播放输出更具有立体性。营造声音的空间感主要是基于心理声学建模技术实现的，因此，DXOMark对声音空间感的评价也主要是依赖主观感知评价来完成的。空间感这一评价维度又包含有几个子维度，如下：

广度（wideness）：评价设备将声音感受区域扩大的能力。

2. 均衡度（balance）：评价设备上多个扬声器之间的平衡度。

3. 距离（distance）：评价感知的声音传递到用户的距离范围，也就是在不同的使用场景下，用户要距离扬声器多远才能正常地听到声音输出。

4. 可定位性（localizability）：评价设备在呈现整个声场时，能否保持特定声音来自特定位置的能力。

力度（dynamics）

力度是指音频中起音的强度、低音的准确度以及给人的冲击力。对这一指标的评价也都是基于主观感知完成的。同时，DXOMark还会测量音频力度随输出音量变化的情况。

音量

与空间感和力度的评价完全依赖于主观感知所不同，对音量的评价会部分依赖于对扬声器声压级的客观测量与评价，具体来说，会测量最大音量、最小音量以及音量的一致性指标（用户对音量的感知变化应该与音量级别的变化保持一致）。除了客观评价外，音量的评价也需要主观感知评价的参与。

音损（artifacts）

对音损的评价同样是由主观和客观评价综合完成的，其中客观评价主要是通过观察频谱图来实现的（在频谱图上可以轻松地发现各类异常的音损）。音损分为两种：

1. 频域音损（spectral artifacts）:与不必要的频率有关。在特定振幅下，声音可能会产生失真并且产生不必要的频率，一般在大音量时容易发生。

2. 时域音损（temporal artifacts）:暂时性的音损，常常表现为声音的突然增大或减小。

录音质量评价

智能手机常见的麦克风配置为三个：两个用于后置摄像头，一个用于前置摄像头。同时，这些麦克风一般都是全向性的，会收录到设备四周所有的声音。这些声音中既包含嘈杂的背景声，也包含声源的反射，优秀的设备必须能够应付各类复杂、恶劣的声学环境。

手机录音的用户使用场景丝毫不比播放场景简单，比如会有

在嘈杂的街道上录制包含对话的视频，此时评判的是设备麦克风收录各个声音的情况，以及对环境噪音的抑制能力
用前置摄像头录制自拍视频，与前一场景类似，此时评判的是设备从周围环境中辨识出主体声音的能力
在音量大、低音强劲的演唱会现场录制视频，此时评判的是设备重现音量与低音、并且不发生明显失真的能力
录制古典音乐会，与前一场景不同，此时评判的则是设备重现空间感的能力
录制多人会议，此时设备需要从多个方向上录制好几个声音，评判的是设备收录各个声音的情况，以及抑制环境噪声的能力

因此，和播放质量评价类似，DXOMark设计的录音质量评价指标包含以下几个维度：音色、空间感、力度、音量、音损和背景音，并且这些评价维度也会根据不同的使用场景有不同的权重值。

音色

DXOMark会测量录音音频的低频、中频、高频和它们之间的总体平衡性。

空间感

空间感的定义与播放质量评价中一样，不过在录音质量评价中，所关注的空间感子维度多了一个“方向性”，它评估设备根据声音来源与用户场景处理声级的能力。比如在录制视频时，设备正面和背面的声音都必须以适当的声级录制下来，这样在回放时才能体现原始声源的位置与声级。

音量

评测设备无论在什么输入声级下都以适当音量录制音频的能力。

力度

同播放质量的定义。

音损

录制质量中的音损指标主要是指“闭塞音损（occlusion artifacts）”，它是指用户在录音时的手机握持方式可能会影响录制质量，而优秀的设备会专门对此加以改进。

背景音

又称环境音，它包含两个子维度：

1.方向性：依据使用场景的不同，背景音可能是适宜的，也可能是应该去掉的。但是在录音声场方向性很强的情况下（比如录制自拍视频），DXOMark会评测主体的声音是否清晰以及背景有无噪音。

2.背景音损：背景音也有自己的音损指标，用户不希望在回放时听到来自背景的异常声音。

结语

说到音频质量，大家总觉得是玄学，但是DXOMark向我们展示了如何通过制定较为科学的评价指标体系与方法，将音频质量评价结果进行量化，这其中的很多细节都值得参考，也可以作为实践中的指导。

即便总有人会说这是为了赚钱，但我觉得这种赚钱方式不丢人，甚至是值得大加赞赏的，如果有更多组织敢于设计、公布自家的评价指标与方法，不也正推进了行业的进步，也可以更好地对消费者进行教育吗？

refer: https://www.dxomark.com/introducing-the-dxomark-audio-test-protocol/

扫码关注公众号【音视频开发进阶】，一起学习多媒体音视频开发~~~

喜欢就点个「在看」吧 ▽