人工智能咨询培训老师叶梓 转载标明出处
大模型在翻译、复杂语言环境中的推理等任务中展现出了人类级别的能力。这引发了一个问题:这些模型能否在更具情感、抽象性以及需要专业技能的领域中,如音乐创作,展现出人类的创造力呢?香港中文大学、北京航空航天大学和上海人工智能实验室的研究团队的最新研究 "SongComposer" 给出了肯定的答案,这是一个专为歌曲创作设计的创新性大型语言模型,它能够理解并生成旋律和歌词,为音乐产业带来新的变革。

数据集
SongCompose-PT 数据集包含了歌词、旋律以及它们之间的配对。这个数据集的目的是为了让大型语言模型(LLM)能够更好地理解音乐和歌词之间的关系,并生成与人类创作方式相似的歌曲。
研究团队从两个在线资源中收集了大量歌词数据。他们首先从 Kaggle 数据集中获取了150,000首带有 Spotify Valence 标签的歌曲的歌词。然后从 Music Lyric Chatbot 数据集中收集了140,000首华语歌曲的歌词。之后,团队进行了一系列的清洗过程,包括去除非英文和非中文的歌词、特殊符号、标点和空格,以及删除重复和无意义的内容。最终整理出了283,000首高质量歌曲的歌词,其中150,000首为英文,133,000首为中文。

为了组织旋律数据集,研究者选择了 MIDI 文件作为数据源。MIDI 文件具有结构简单的优点,便于提取和操作旋律,而无需复杂的音频处理。他们从 LMD-matched MIDI 数据集中收集了45,000个条目,并通过网页爬虫获取了大约80,000个条目。使用 pretty midi 库,他们解析了 MIDI 文件,并提取了旋律或声乐轨道。每条旋律被表示为一系列音乐音符属性的三元组,包括音符音高、音符持续时间和休止符持续时间。
配对歌词-旋律数据集对于训练 LLM 进行歌曲创作至关重要,因为它们提供了精确的歌词和旋律之间的同步信息。为了创建这个数据集,研究者首先从先前研究中获取了数据集,包括 LMD-full 数据集的7,998首歌曲和 Reddit 来源的4,199首歌曲。他们还整合了 OpenCpop 和 M4Singer 数据集。为了进一步