SongComposer:让大模型像人类一样具有音乐创作力

人工智能咨询培训老师叶梓 转载标明出处

大模型在翻译、复杂语言环境中的推理等任务中展现出了人类级别的能力。这引发了一个问题:这些模型能否在更具情感、抽象性以及需要专业技能的领域中,如音乐创作,展现出人类的创造力呢?香港中文大学、北京航空航天大学和上海人工智能实验室的研究团队的最新研究 "SongComposer" 给出了肯定的答案,这是一个专为歌曲创作设计的创新性大型语言模型,它能够理解并生成旋律和歌词,为音乐产业带来新的变革。

SongComposer系统如何根据指令生成歌曲的概述

数据集

SongCompose-PT 数据集包含了歌词、旋律以及它们之间的配对。这个数据集的目的是为了让大型语言模型(LLM)能够更好地理解音乐和歌词之间的关系,并生成与人类创作方式相似的歌曲。

研究团队从两个在线资源中收集了大量歌词数据。他们首先从 Kaggle 数据集中获取了150,000首带有 Spotify Valence 标签的歌曲的歌词。然后从 Music Lyric Chatbot 数据集中收集了140,000首华语歌曲的歌词。之后,团队进行了一系列的清洗过程,包括去除非英文和非中文的歌词、特殊符号、标点和空格,以及删除重复和无意义的内容。最终整理出了283,000首高质量歌曲的歌词,其中150,000首为英文,133,000首为中文。

收集歌词-旋律配对数据的流程,包括数据抓取、清洗、切片、音乐源分离、声音转录、词边界注释和词级对齐


为了组织旋律数据集,研究者选择了 MIDI 文件作为数据源。MIDI 文件具有结构简单的优点,便于提取和操作旋律,而无需复杂的音频处理。他们从 LMD-matched MIDI 数据集中收集了45,000个条目,并通过网页爬虫获取了大约80,000个条目。使用 pretty midi 库,他们解析了 MIDI 文件,并提取了旋律或声乐轨道。每条旋律被表示为一系列音乐音符属性的三元组,包括音符音高、音符持续时间和休止符持续时间。

配对歌词-旋律数据集对于训练 LLM 进行歌曲创作至关重要,因为它们提供了精确的歌词和旋律之间的同步信息。为了创建这个数据集,研究者首先从先前研究中获取了数据集,包括 LMD-full 数据集的7,998首歌曲和 Reddit 来源的4,199首歌曲。他们还整合了 OpenCpop 和 M4Singer 数据集。为了进一步

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

人工智能大模型讲师培训咨询叶梓

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值