人工智能咨询培训老师叶梓 转载标明出处
近期,一种名为ChatMusician的新型开源大模型引起了广泛关注,它通过整合音乐的内在能力,展示了在文本生成方面的巨大潜力。ChatMusician由Skywork AI PTE. LTD.和香港科技大学的研究团队共同开发,它基于持续预训练和微调的LLaMA2模型,并通过一种文本兼容的音乐表示法——ABC符号,将音乐作为第二语言来处理。与传统的LLM相比,ChatMusician不仅能够理解音乐,还能生成具有结构性、全长的音乐作品,条件化于文本、和弦、旋律、动机、音乐形式等。

Figure 1 显示ChatMusician如何通过利用网络来源的音乐知识库和精心制作的音乐乐谱生成指令来学习。这种学习方式不仅让ChatMusician掌握了音乐生成的能力,还使其能够理解音乐,并能够以对话的方式与用户互动。ChatMusician能够执行多种任务,包括但不限于:
- 聊天(Chat):与用户进行关于音乐的对话,提供音乐建议或回答音乐相关问题。
- 作曲(Compose):基于给定的音乐元素,如和弦、旋律、节奏等,创作新的音乐作品。
- 回答大学水平的音乐理论问题(Answer college-level music theory questions):展示其在音乐理论知识方面的理解能力,能够处理复杂的音乐理论问题。
方法
在构建ChatMusician模型的过程中,研究者首先面临的挑战是创建一个适合训练的语言语料库。由于缺乏公开可用的音乐相关自然语言语料库,他们决定从现有的大规模语料库中筛选并构建自己的语料库,命名为MusicPile。
研究者采用了多个代表性公共数据集,包括Pile、Falcon RefinedWeb和Wikipedia。为了确保语料库与音乐相关,他们根据音乐术语列出了一套标准来筛选Pile数据集,只包括那些出现次数超过10次且占领域一致性超过0.5%的音乐术语词汇。
除了通用语料库,研究者还纳入了指令和聊天数据,以使模型能够适应潜在的下游应用。这些数据集足够多样化和代表性,可以适应大型语言模型的需求。为了支持多轮对话,他们还包括了聊天语料库。
研究者还从YouTube爬取了200万音乐曲目的元数据,包括歌曲标题、描述、专辑、艺术家、歌词、播放列表等,