原文作者:A¨aronvandenOord,SanderDieleman,BenjaminSchrauwen
本文为了解决协同过滤导致的冷启动问题,使用基于内容推荐算法,建议使用潜在因素模型进行推荐,并在无法从可获取数据中获取潜在因素时从音乐音频中预测潜在因素。我们比较了使用深度卷积神经网络和使用词袋表示音频信号的传统方法,并在“百万首歌曲”数据集上定量和定性地评估了预测。我们展示了使用预测的潜在因素会产生明智的建议,尽管事实上,影响用户偏好的歌曲特征与相应的音频信号之间存在很大的语义差距。并且本文表明深度学习的最新进展很好地转化为音乐推荐设置,深度卷积神经网络的性能明显优于传统方法。
1.音乐中的语义鸿沟(semantic gap)
(基于模型的协同过滤法中)潜在因子向量构成了用户品味的不同方面以及商品的相应特征的紧凑描述。由于许多歌曲缺少使用数据,因此通常无法可靠地估计这些因子向量。因此,我们也需要能够根据音乐音频内容预测它们。
影响用户偏好的歌曲特征与相应的音频信号之间存在较大的语义差距。从音频信号中提取诸如流派,语气,乐器和抒情主题等高级属性需要强大