DXOMark是如何评价音频质量的

智能大屏手机刚刚普及的时候,屏幕尺寸是消费者选购手机时最关注的因素。近年来,各大厂商走火入魔一般地在相机方向发力,于是拍照功能又成了消费者主要关注的因素之一。然而,随着自媒体与vlog的兴起,越来越多的用户开始使用手机录制、观看音视频内容,可以预见,手机音频质量的重要性未来将会大大增加。

10月份,著名的相机与手机影像评测机构DXOMark官网上线了手机音频质量评价标准与结果。尽管近年来DXOMark常被调侃为“被充值的评测机构”,但我认为这依然不影响他的总体权威性(要不为啥各大厂家都喜欢给他们“充值”,而不是给国内这一大票评测媒体?)。下面我们来看看DXOMark是如何制定音频质量评价标准,又是如何进行质量评价的,想必其中一定有值得我们学习的地方。


总体评价方法与环境

DXOMark的手机音频质量评价分为两个大类:播放质量与录音质量。对于每一个大类,又包含各种评价指标,将各个指标的评价结果加权汇总后即得到当前大类的总体评分。评价方法则包含客观质量评价和主观质量评价两部分。在客观评价中,依据频谱图,以及声级计等设备给出的结果进行评分。在主观评价中,依据有多年经验的声学专家所给出的主观感知结果进行评分。

虽然DXOMark没有明说,但我们大胆猜测这些声学专家应该很多都有“金耳朵”认证

测试环境分为两部分:消音室和听音室。

在消音室中,声波反射被完全杜绝,外界噪音也被完全隔离开。测试播放质量时,在消音室中用麦克风记录手机播放结果;测试录音质量时,还会在消音室中放置额外的扬声器来模拟各种真实用户使用场景。

在听音室中,环绕被测设备和人员放置有数个扬声器。这些扬声器的布局被精心设计过,从而可以几乎完全重现真实用户使用场景,比如繁忙的大街或安静的书房。在听音室中,既可以对单一设备进行评价,也可以同时比较多台设备的音频质量。

根据DXOMark的介绍,他们会先用多个麦克风以特定的布局录制真实用户场景的环境音,然后在听音室中将扬声器依照相同的布局放置,从而实现对真实场景的重现。


播放质量评价

在不同的使用场景下,用户所关注的播放质量因素有所不同。举个例子,在玩吃鸡这样的射击游戏时,用户更关注游戏枪声或其他音效的空间感,因为更好的空间感有助于玩家定位声音的方向。而在手机上看电影或听音乐时,其他质量因素则可能对用户体验产生更大的影响。

再比如,当用户听歌时,他们一般会竖屏握持手机,这又与玩游戏时横屏握持的使用场景有很大区别,相应的影响因素也不同。举个例子,当用户观看网络主播的视频时,往往更关注人物说话的声音,这又与听歌时的关注点会有所区别。

基于此,DXOMark设计的播放质量评价指标包含以下几个维度:音色、空间感、力度、音量和音损。同时,这些评价维度根据不同的使用场景会有不同的权重值(不过DXOMark没有公布具体的权重值)。

音色

音色乍一听是很玄学的东西。DXOMark对良好音色的定义则是:设备应该能在特定场景下呈现符合用户期望的正确频率输出。比如前面提过的网络主播视频的例子,如果设备能够在此时正确地呈现出用户想要的人声(对应于中频部分),那么我们就说设备在这一场景下的音色是优秀的。

这给我们的启示是:设备的音效应该能够根据当前内容进行自适应的调整。

空间感

良好的空间感可以让音频播放输出更具有立体性。营造声音的空间感主要是基于心理声学建模技术实现的,因此,DXOMark对声音空间感的评价也主要是依赖主观感知评价来完成的。空间感这一评价维度又包含有几个子维度,如下:

  1. 广度(wideness):评价设备将声音感受区域扩大的能力。

2. 均衡度(balance):评价设备上多个扬声器之间的平衡度。

3. 距离(distance):评价感知的声音传递到用户的距离范围,也就是在不同的使用场景下,用户要距离扬声器多远才能正常地听到声音输出。

4. 可定位性(localizability):评价设备在呈现整个声场时,能否保持特定声音来自特定位置的能力。

力度(dynamics)

力度是指音频中起音的强度、低音的准确度以及给人的冲击力。对这一指标的评价也都是基于主观感知完成的。同时,DXOMark还会测量音频力度随输出音量变化的情况。

音量

与空间感和力度的评价完全依赖于主观感知所不同,对音量的评价会部分依赖于对扬声器声压级的客观测量与评价,具体来说,会测量最大音量、最小音量以及音量的一致性指标(用户对音量的感知变化应该与音量级别的变化保持一致)。除了客观评价外,音量的评价也需要主观感知评价的参与。

音损(artifacts)

对音损的评价同样是由主观和客观评价综合完成的,其中客观评价主要是通过观察频谱图来实现的(在频谱图上可以轻松地发现各类异常的音损)。音损分为两种:

1. 频域音损(spectral artifacts):与不必要的频率有关。在特定振幅下,声音可能会产生失真并且产生不必要的频率,一般在大音量时容易发生。

2. 时域音损(temporal artifacts):暂时性的音损,常常表现为声音的突然增大或减小。


录音质量评价

智能手机常见的麦克风配置为三个:两个用于后置摄像头,一个用于前置摄像头。同时,这些麦克风一般都是全向性的,会收录到设备四周所有的声音。这些声音中既包含嘈杂的背景声,也包含声源的反射,优秀的设备必须能够应付各类复杂、恶劣的声学环境。

手机录音的用户使用场景丝毫不比播放场景简单,比如会有

  • 在嘈杂的街道上录制包含对话的视频,此时评判的是设备麦克风收录各个声音的情况,以及对环境噪音的抑制能力

  • 用前置摄像头录制自拍视频,与前一场景类似,此时评判的是设备从周围环境中辨识出主体声音的能力

  • 在音量大、低音强劲的演唱会现场录制视频,此时评判的是设备重现音量与低音、并且不发生明显失真的能力

  • 录制古典音乐会,与前一场景不同,此时评判的则是设备重现空间感的能力

  • 录制多人会议,此时设备需要从多个方向上录制好几个声音,评判的是设备收录各个声音的情况,以及抑制环境噪声的能力

因此,和播放质量评价类似,DXOMark设计的录音质量评价指标包含以下几个维度:音色、空间感、力度、音量、音损和背景音,并且这些评价维度也会根据不同的使用场景有不同的权重值。

音色

DXOMark会测量录音音频的低频、中频、高频和它们之间的总体平衡性。

空间感

空间感的定义与播放质量评价中一样,不过在录音质量评价中,所关注的空间感子维度多了一个“方向性”,它评估设备根据声音来源与用户场景处理声级的能力。比如在录制视频时,设备正面和背面的声音都必须以适当的声级录制下来,这样在回放时才能体现原始声源的位置与声级。

音量

评测设备无论在什么输入声级下都以适当音量录制音频的能力。

力度

同播放质量的定义。

音损

录制质量中的音损指标主要是指“闭塞音损(occlusion artifacts)”,它是指用户在录音时的手机握持方式可能会影响录制质量,而优秀的设备会专门对此加以改进。

背景音

又称环境音,它包含两个子维度:

1.方向性:依据使用场景的不同,背景音可能是适宜的,也可能是应该去掉的。但是在录音声场方向性很强的情况下(比如录制自拍视频),DXOMark会评测主体的声音是否清晰以及背景有无噪音。

2.背景音损:背景音也有自己的音损指标,用户不希望在回放时听到来自背景的异常声音。


结语

说到音频质量,大家总觉得是玄学,但是DXOMark向我们展示了如何通过制定较为科学的评价指标体系与方法,将音频质量评价结果进行量化,这其中的很多细节都值得参考,也可以作为实践中的指导。

即便总有人会说这是为了赚钱,但我觉得这种赚钱方式不丢人,甚至是值得大加赞赏的,如果有更多组织敢于设计、公布自家的评价指标与方法,不也正推进了行业的进步,也可以更好地对消费者进行教育吗?

refer: https://www.dxomark.com/introducing-the-dxomark-audio-test-protocol/


扫码关注公众号【音视频开发进阶】,一起学习多媒体音视频开发~~~

喜欢就点个「在看」吧 ▽

# MOS-PESQ The project is a tool that can get MOS(PESQ) score for the voice. PESQ measure: ------------- Usage of the PESQ objective measure is as follows: [pesq_mos]=pesq(cleanfile.wav,enhanced.wav) where 'cleanfile.wav' contains the clean speech file and 'enhanced.wav' contains the enhanced file. Example: To run the PESQ objective measure with the example files provided, type in MATLAB: >> pesq('sp09.wav','enhanced_logmmse.wav') ans = 2.2557 Source code for the PESQ implementation is available from a CD-ROM included in the following book: Loizou, P. (2007) "Speech enhancement: Theory and Practice", CRC Press. COMPOSITE MEASURE: ----------------- Usage: [Csig,Cbak,Covl]=composite(cleanfile.wav,enhanced.wav) where 'Csig' is the predicted rating of speech distortion 'Cbak' is the predicted rating of background distortion 'Covl' is the predicted rating of overall quality. You may run example files included in the zip file. In MATLAB, type: >> [c,b,o]=composite('sp09.wav','enhanced_logmmse.wav') LLR=0.681368 SNRseg=3.991727 WSS=49.671978 PESQ=2.255732 c = 3.3050 b = 2.6160 o = 2.7133 where 'sp09.wav' is the clean file and 'enhanced_logmmse.wav' is the enhanced file. The predicted ratings for overall quality was 2.7133, for background was 2.61 and for signal distortion it was 3.3050. Operating steps: ----------------- >> ./matlab-PESQ/readme.txt Thank: ----------------- Any questions, please E_mail: kinglongbest@163.com/245051943@qq.com 操作步骤 1.将所录序列加载如当前工作路径,也可以按自己工作路径自行加载; 2.在read.m中修改参考序列,默认为ref.wav,16KHz采样; 3.利用wavdivide.m对所录多组序列文件进行拆分(支持多种采样频率),并按序保证至当前路径; 4.运行tongji.m计算PESQ_MOS得分并通过excel/txt输出至指定路径; NOTE: 对于步骤4,每次执行记得修改excel中输出列位置,如cellnames2=['B',num2str(k+1),':B',num2str(k+1)];, 指定写入B列,下次执行改为C列,以此类推; 其中ref_8k.wav为8KHz采样测试序列,ref.wav为16KHz,ref_3s.wav只是为方便测试在ref.wav语音前加3s静音;
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值