SongComposer：让大模型像人类一样具有音乐创作力

本文链接：https://blog.csdn.net/weixin_44292902/article/details/140463990

人工智能咨询培训老师叶梓转载标明出处

大模型在翻译、复杂语言环境中的推理等任务中展现出了人类级别的能力。这引发了一个问题：这些模型能否在更具情感、抽象性以及需要专业技能的领域中，如音乐创作，展现出人类的创造力呢？香港中文大学、北京航空航天大学和上海人工智能实验室的研究团队的最新研究 "SongComposer" 给出了肯定的答案，这是一个专为歌曲创作设计的创新性大型语言模型，它能够理解并生成旋律和歌词，为音乐产业带来新的变革。

数据集

SongCompose-PT 数据集包含了歌词、旋律以及它们之间的配对。这个数据集的目的是为了让大型语言模型（LLM）能够更好地理解音乐和歌词之间的关系，并生成与人类创作方式相似的歌曲。

研究团队从两个在线资源中收集了大量歌词数据。他们首先从 Kaggle 数据集中获取了150,000首带有 Spotify Valence 标签的歌曲的歌词。然后从 Music Lyric Chatbot 数据集中收集了140,000首华语歌曲的歌词。之后，团队进行了一系列的清洗过程，包括去除非英文和非中文的歌词、特殊符号、标点和空格，以及删除重复和无意义的内容。最终整理出了283,000首高质量歌曲的歌词，其中150,000首为英文，133,000首为中文。

收集歌词-旋律配对数据的流程，包括数据抓取、清洗、切片、音乐源分离、声音转录、词边界注释和词级对齐

为了组织旋律数据集，研究者选择了 MIDI 文件作为数据源。MIDI 文件具有结构简单的优点，便于提取和操作旋律，而无需复杂的音频处理。他们从 LMD-matched MIDI 数据集中收集了45,000个条目，并通过网页爬虫获取了大约80,000个条目。使用 pretty midi 库，他们解析了 MIDI 文件，并提取了旋律或声乐轨道。每条旋律被表示为一系列音乐音符属性的三元组，包括音符音高、音符持续时间和休止符持续时间。

配对歌词-旋律数据集对于训练 LLM 进行歌曲创作至关重要，因为它们提供了精确的歌词和旋律之间的同步信息。为了创建这个数据集，研究者首先从先前研究中获取了数据集，包括 LMD-full 数据集的7,998首歌曲和 Reddit 来源的4,199首歌曲。他们还整合了 OpenCpop 和 M4Singer 数据集。为了进一步