用弗雷歇距离(Fréchet Distance)进行音质和视质度量
当你能够衡量自己所说的东西,并用数字来说明它,这意味着你对它有较好的了解;反之,则意味你对它并不是真正了解。
————William Thomson在1883年的“电子计量单位”讲座中说
机器学习的科学进步速度通常取决于优质数据集和指标的可用性。 在深度学习中,基准数据集(例如ImageNet或Penn Treebank)可促进建立用于图像识别和语言模型的深度人工神经网络。 然而,尽管可用的真值数据集很适合作为这些预测任务表现的衡量指标,但标定这些用于和生成模型进行比较的数据并不是那么简单。 想象一下一种模型,该模型生成星际争霸系列游戏的视频——如何确定哪种模型最好? 显然,下面显示的某些视频看起来比其他视频更真实,但是它们之间的差异可以用什么指标量化吗? 获得用于评估生成模型的有力指标对于衡量(取得)音频和视频理解领域的进展至关重要,但是目前尚不存在此类指标。
由星际争霸录像数据集中的一组镜头训练出的不同模型上生成的视频
在“Fréchet Audio Distance: A Metric for Evaluating Music Enhancement Algorithms”和“Towards Accurate Generative Models of Video: A New Metric & Challenges”中,我们介绍了两个这样的衡量指标——Fréchet音频距离(FAD)和Fréchet视频距离(FVD) 。我们用10000个视频和69000个音频片段成对比较