感谢阅读腾讯 AI Lab 微信号第 187 篇文章。本文介绍腾讯 AI Lab 与腾讯 TME 天琴实验室联合打造的「琴乐大模型」。
大模型的介入正在让音乐的创作更加灵活和高效。
不久前,全国首个 AI 作曲的民乐音乐会《零•壹|中国色》在上海首度与观众见面。该场演出全部参演曲目均由「琴乐大模型」生成,并经过乐团演奏家们二度创作,最终打磨成曲。
「琴乐大模型」是腾讯音乐娱乐集团(TME)天琴实验室和腾讯 AI Lab 联合研发的 AI 音乐大模型,具备丰富的 AI 作曲和编曲能力。只需输入中英文关键词、描述性语句或音频,「琴乐大模型」就可直接生成音乐,也可为有后期编辑需求的音乐人,提供生成乐谱的能力。
具体而言,「琴乐大模型」模型可根据文本(默认标签或自然语言提示词),直接生成 44.1kHz 的立体声音频(wav)或最多 30 个小节、包含旋律轨、和弦轨、伴奏轨和打击乐轨等的多轨乐谱(MIDI)。对于乐谱输出,该模型支持对已生成的乐谱进行自动编辑操作,如续写、重新生成指定轨、重新生成指定小节、配器、修改乐器类型、修改节奏等。
大规模双盲听测结果表明,在端到端的纯音乐生成任务中,「琴乐大模型」的多维度主观评分均稳定超越业内 musicgen 3.3B stereo。
大规模双盲评测MOS得分
与常见的文字或者图片大模型相比,音频内容的理解和生成难度较高。音频模态的重要难点之一在于其高采样率带来的超长序列建模难度。对于标准的 44.1Hz 采样率的立体声音乐来说,生成 30s 的音乐需要生成超过一百万个采样点,生成一首完整的歌曲可能需要生成上千万个采样点。在文生文大模型中,100k(十万)个 token 的上下文支持已经属于超长上下文的范畴了,一张 256×256 分辨率的图像也只有几十万个采样点。如何高效、准确地对高采样率音频进行压缩与重建,降低生成模型的训练难度,提升生成结果的质量,就成为了文生音频任务中的重要一环。
另外,音频作为一个时间序列信号,其包括了不同声音事件、人声与乐器的叠加,所产生的混合信号不像图片或文本一样有较强的局部性(locality),而同时长时间的旋律走向、和弦走向、节拍稳定性与音乐性等又需要满足音乐理论与人类偏好,这些因素都使得音乐生成任务有较高的难度。
琴乐大模型包含了多个模块,包括融合了文本和音乐语义对齐的音频文本对齐模型模型、乐谱/音频表征提取模型、用于表征预测的大语言模型、基于流匹配的立体声生成模型与用于音频恢复的声码器等多个模块,最终实现音乐生成的效果。
其中,音频文本对齐模型使用对比学习(contrastive learning)构建音频标签/文本描述与音频之间的共享特征空间(shared embedding space),该特征空间进而用于生成模型的条件控制信号。
在生成模型的训练过程中,音频文本对齐模型中的音频表征被用作条件控制信号,而推理过程中,音频文本对齐模型的文本表征被用作条件控制信号。这使得系统训练流程中,音频文本对齐模型的训练与生成模型的训练可以被解耦,且生成模型可以利用没有文本标签的音频进行训练。
乐谱/音频表征提取模块将乐谱或音频转换为离散的特征(token)序列,以便于大语言模型(LLM)进行预测。其中,乐谱表征包括多个轨道的MIDI属性(attribute)表征,音频表征为预先训练的将音频频谱进行编码与压缩后的离散表征。用于表征预测的大语言模型使用decoder-only结构进行特征预测(next token prediction)训练。
在推理过程中,预测出的多轨MIDI属性序列会转换为乐谱,同时可通过乐谱渲染(MIDI rendering)生成音频;预测出的音频表征序列会通过流匹配(flow matching)与声码器(vocoder)模块恢复为音频。乐谱渲染出的音频也可以重新通过流匹配与声码器模块进行音频重渲染,增强其真实性。在对生成出的乐谱进行编辑时,大语言模型基于文本描述对全曲的元信息(如速度、音量等)进行修改,且对需要修改的轨道或小节进行重新生成。
未来,研究团队也将结合音乐场景的需要,在「琴乐大模型」中加入人声、歌词等要素的生成能力,以更好的服务音乐创作需要。
目前,「琴乐大模型」相关技术已经上线腾讯音乐启明星平台,注册即可体验。
点击文末「阅读原文」或复制下方地址至浏览器体验:https://y.qq.com/venus#/venus/user/login?redirect=%2Faigc%2Fai_compose%3F
* 欢迎转载,请注明来自腾讯 AI Lab 微信(tencent_ailab)