音乐是人类最古老也最普遍的艺术形式之一,它能够表达我们的情感、想法和文化。音乐的创作过程既有艺术性,也有逻辑性,它涉及到词曲、旋律、节奏、结构、风格等多个方面。随着人工智能(AI)技术的发展,越来越多的研究者和企业开始探索如何利用 AI 来辅助或自动生成音乐,从而开拓音乐创作的新可能。在这篇博客中,我们将介绍一些音乐 AI 大模型的原理和应用,以及它们对音乐创作的影响和挑战。
首先,我们来看看谷歌最近发布的全新的 AI 模型——MusicLM,该模型可以从文本甚至图像中生成高保真音乐,也就是说可以把一段文字、一幅画转化为歌曲,且曲风多样。MusicLM 是继文字生成 AI 模型 Wordcraft、视频生成工具 Imagen Video 之后,谷歌又一次推出生成式 AI 模型工具,这一次谷歌将目标瞄准了音乐领域。目前,谷歌还未向公众开放 MusicLM,因为版权等问题。如果你想了解更多关于 MusicLM 的细节和实验结果,请参考这篇论文(链接)。
MusicLM 的原理是将条件音乐生成过程视为分层序列到序列建模任务,它可以生成 24 kHz 的音乐。MusicLM 的训练数据集包含了 28 万小时的音乐数据,涵盖了多种风格和乐器。MusicLM 的实验表明,它在音频质量和对文本描述的遵守方面都优于以前的系统。此外,MusicLM 还可以以文本和旋律为条件,因为它可以根据文本标题中描述的风格转换口哨和哼唱的旋律。
接下来,我们将看看除了谷歌之外,还有哪些音乐 AI 大模型。