ChatMusician:用大模型理解并创造音乐

人工智能咨询培训老师叶梓 转载标明出处

近期,一种名为ChatMusician的新型开源大模型引起了广泛关注,它通过整合音乐的内在能力,展示了在文本生成方面的巨大潜力。ChatMusician由Skywork AI PTE. LTD.和香港科技大学的研究团队共同开发,它基于持续预训练和微调的LLaMA2模型,并通过一种文本兼容的音乐表示法——ABC符号,将音乐作为第二语言来处理。与传统的LLM相比,ChatMusician不仅能够理解音乐,还能生成具有结构性、全长的音乐作品,条件化于文本、和弦、旋律、动机、音乐形式等。

ChatMusician 学习流程图

Figure 1 显示ChatMusician如何通过利用网络来源的音乐知识库和精心制作的音乐乐谱生成指令来学习。这种学习方式不仅让ChatMusician掌握了音乐生成的能力,还使其能够理解音乐,并能够以对话的方式与用户互动。ChatMusician能够执行多种任务,包括但不限于:

  • 聊天(Chat):与用户进行关于音乐的对话,提供音乐建议或回答音乐相关问题。
  • 作曲(Compose):基于给定的音乐元素,如和弦、旋律、节奏等,创作新的音乐作品。
  • 回答大学水平的音乐理论问题(Answer college-level music theory questions):展示其在音乐理论知识方面的理解能力,能够处理复杂的音乐理论问题。

方法

在构建ChatMusician模型的过程中,研究者首先面临的挑战是创建一个适合训练的语言语料库。由于缺乏公开可用的音乐相关自然语言语料库,他们决定从现有的大规模语料库中筛选并构建自己的语料库,命名为MusicPile。

研究者采用了多个代表性公共数据集,包括Pile、Falcon RefinedWeb和Wikipedia。为了确保语料库与音乐相关,他们根据音乐术语列出了一套标准来筛选Pile数据集,只包括那些出现次数超过10次且占领域一致性超过0.5%的音乐术语词汇。

除了通用语料库,研究者还纳入了指令和聊天数据,以使模型能够适应潜在的下游应用。这些数据集足够多样化和代表性,可以适应大型语言模型的需求。为了支持多轮对话,他们还包括了聊天语料库。

研究者还从YouTube爬取了200万音乐曲目的元数据,包括歌曲标题、描述、专辑、艺术家、歌词、播放列表等,并从中提取了50万条元数据。利用GPT-4生成了这些元数据的摘要,并根据附录B中的主题大纲,生成了255k条指令,以及相应的答案。

为了增强模型对符号音乐的理解能力,研究者假设包含数学和代码数据可能有助于提升模型的推理能力。他们发现实际上这有助于提高音乐LLM的性能。除了通用语料库外,所有其他数据集都构建为对话形式,以支持一个或多个对话轮次。

MusicPile数据集的详细信息,包括不同数据源的类别、格式、样本数量和来源

在构建音乐乐谱语料库方面,研究者面临了计算音乐社区中符号音乐数据集稀缺的问题。为了解决这一问题,他们努力从世界各地收集音乐,以确保语料库的多样性和代表性。研究者们特别关注了音乐乐谱的收集,这些乐谱不仅包括西方古典音乐,还有来自不同文化和地区的音乐作品。他们设计了八个代表性的音乐任务,这些任务基于收集到的语料库,涵盖了音乐生成和音乐理解两大类。在生成任务中,研究者们探索了基于和弦、旋律、动机、音乐形式和风格的音乐创作;而在理解任务中,则涉及到从用户输入的乐谱中提取动机和形式。

为了进一步丰富语料库,研究者们还开发了一种音乐形式分析算法,该算法能够根据控制代码中提供的编辑距离相似度来分析音乐形式。通过这种方式,他们能够将音乐形式用字母表示,例如,"A" 表示一个乐段,"s" 表示与前一乐段相同的部分,而 "v" 表示与前一乐段有变化的部分。这种表示方法有助于研究者们更深入地理解和生成音乐结构。

MusicPile中包括的六个音乐生成任务和两个音乐理解任务,以及每个任务的示例指令

在MusicTheoryBench的开发上,研究者们旨在创建一个能够评估现有LLM在音乐理解方面高级能力的基准测试。为此,他们首先定义了音乐知识和音乐推理两个关键要素。音乐知识涉及对音乐理论、历史、乐器特性和文化背景的累积理解,而音乐推理则是基于现有知识和观察进行推断的过程,通常与数学相关。研究者们认为,音乐与数学有相似之处,作曲家会精心计算形式、和声、音阶、节奏和结构组织的规则,以确保音符在时间和频率域上的分布符合既定规范。

为了创建MusicTheoryBench,研究者们聘请了专业的音乐教师,根据大学教科书和试卷精心制作问题,确保测试内容与人类考试标准一致。问题经过多轮讨论和审查,由音乐家团队手动编译成JSON和ABC字符串格式,并被标记为音乐知识和音乐推理两个子集。最终基准测试包含372个问题,每个问题都有四个选项,只有一个正确答案。这些内容涵盖了东西方音乐的元素,并根据高中和大学音乐专业学生的水平,设置了不同难度级别。

MusicTheoryBench中的示例问题,展示了音乐知识和音乐推理的简单例子

实验

研究者们选用了LLaMA2-7B-Base作为基础模型,并在此基础上进行了持续的预训练和微调。为了提高训练效率和模型性能,研究者们集成了LoRA适配器到注意力和MLP层中,并在嵌入层以及所有线性层上进行了额外的训练。模型训练使用了16个80GB-A800 GPU,这显示了研究者们对计算资源的大量投入。他们还采用了DeepSpeed库来优化内存使用,并使用了AdamW优化器,设置了1e-4的学习率和5%的预热余弦调度器,梯度裁剪则设置为1.0。

在数据设置方面,研究者们在预训练阶段结合了所有训练数据进行单周期训练。为了探索不同数据对预训练模型的影响,他们在监督微调阶段调查了不同比例的数据,并最终确定了音乐乐谱数据与音乐知识及音乐摘要数据之间的2:1比例。这个比例在音乐生成和音乐理解任务上表现良好,同时保证了MMLU性能。基于这个比例,研究者们首先从训练集中抽取了78K样本进行了10个周期的训练,随后保持比例,使用了所有可用的音乐乐谱数据,包括1.1M样本,进行了2个周期的训练。

在评估和基线系统方面,由于目前具有符号音乐能力的LLM不多,研究者们选择了几种流行的LLM系统,包括GPT-3.5、GPT-4和LLaMA-2作为基线进行比较。为了评估模型的通用语言能力,他们采用了MMLU数据集,这是一个旨在评估语言模型预训练期间获得的知识的基准。为了公平比较,研究者们在5-shot设置下评估了模型。此外,为了评估音乐理解能力,研究者们使用了MusicTheoryBench,这是他们提出的音乐基准测试,旨在检验LLM对音乐知识的理解能力。在音乐生成能力的评估上,研究者们主要依赖人类判断,并开发了特定的度量标准,如短语级重复度量和解析成功率度量,以及平均百分位分数度量来评估模型的可控性。这些评估方法为研究者们提供了全面评估ChatMusician性能的工具。

结果

在探讨ChatMusician模型的音乐理解能力时,研究者们采用了自行构建的MusicTheoryBench基准测试。这个测试包含了372个问题,旨在评估模型在音乐知识和音乐推理两个方面的表现。在音乐知识方面,所有参与评估的模型都显著超过了随机猜测的基线,显示出它们对音乐理论的一定理解。GPT-4在这一领域的表现尤为突出,得分最高,而ChatMusician-Base和ChatMusician紧随其后,这表明通过持续训练,模型的音乐知识能力得到了显著提升。然而,在音乐推理方面,即便是最先进的GPT-4模型,其得分也仅为25.6%,显示出所有模型在这一领域都有很大的提升空间。有趣的是,ChatMusician-Base在音乐推理上的表现略优于GPT-4,这可能归功于其特别设计的音乐理解能力。

在MusicTheoryBench上,不同模型(GPT-3.5、GPT-4、LLaMA2-7B-Base、ChatMusician-Base、ChatMusician)在零样本设置下的性能比较
使用不同的提示技术(如角色扮演和5-shot ICL技术)对GPT-4在MusicTheoryBench上的性能影响

在音乐生成方面,研究者们展示了ChatMusician在不同条件下生成音乐的能力。他们首先分析了ABC符号系统的压缩比,发现ABC符号在表示音乐时具有最短的序列长度,这意味着使用ABC符号不仅与文本兼容,还减少了训练成本和学习复杂性。研究者们还进行了定性研究,让听众评估由不同模型生成的音乐片段的音乐性,包括其整体的一致性和结构的清晰度。结果显示,听众更倾向于选择ChatMusician生成的音乐,这表明该模型在生成具有重复性和结构性的音乐方面具有优势。

听众对不同系统生成音乐片段的偏好结果,特别是ChatMusician与GPT-4的比较

研究者们还对模型生成的ABC符号进行了格式正确性评估,发现ChatMusician和GPT-4在正确格式化和可解析性方面的表现都超过了90%,而GPT-3.5的成功率则显著较低。这进一步证实了ChatMusician在音乐生成任务中的高可控性。通过对不同音乐生成任务的评估,研究者们发现ChatMusician在所有任务中都优于GPT-3.5和GPT-4,这表明其在整合音乐生成能力方面取得了成功。

由ChatMusician生成的音乐作品的ABC符号和对应的五线谱,包括重复符号和旋律重复的可视化表示

在探究ChatMusician的语言能力时,研究者们通过MMLU(Massive Multitask Language Understanding)评分来衡量模型的语言理解能力。结果显示,ChatMusician和ChatMusician-Base的得分均高于基线模型LLaMA2-7B-Base。这一发现揭示了,尽管ChatMusician被赋予了音乐理解和生成的能力,但其语言能力并未受到影响,反而在一定程度上得到了提升。这表明,音乐与语言处理能力在LLM中可以并行发展,相互促进。

ChatMusician和LLaMA2-7B-Base在MMLU基准测试上的得分

研究者们进一步分析了ChatMusician的记忆效应。他们从训练集中随机选取了500个样本,将模型生成的ABC符号与真实样本进行比较。结果显示,仅有0.02%的样本在完整序列上与真实样本完全一致,而0.24%的样本在至少80%的标记上与真实样本相同。这一结果表明,ChatMusician并没有简单地记忆训练数据,而是能够生成相对独立和创新的音乐作品。这一点对于评估模型的创造性和避免版权问题至关重要。

尽管ChatMusician展现出了较低的记忆效应,但在实际应用中,特别是在音乐教育等领域,仍需警惕模型可能产生的误导效应。另外为了进一步减少幻觉现象的发生,研究者们计划开发音乐抄袭检测算法,并实施更精准的对齐策略,以确保模型生成的音乐作品既具有创新性,又尊重现有的音乐版权法规。这些措施将有助于推动ChatMusician在音乐领域的健康发展,同时维护音乐创作的原创性和多样性。

论文链接:https://arxiv.org/abs/2402.16153

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

人工智能大模型讲师培训咨询叶梓

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值