ChatMusician：用大模型理解并创造音乐

人工智能大模型讲师培训咨询叶梓

已于 2024-07-16 18:04:09 修改

阅读量1.9k

点赞数 35

分类专栏：人工智能讲师文章标签：人工智能音视频计算机视觉深度学习大模型多模态音乐

于 2024-07-16 02:45:00 首次发布

本文链接：https://blog.csdn.net/weixin_44292902/article/details/140448652

版权

人工智能咨询培训老师叶梓转载标明出处

近期，一种名为ChatMusician的新型开源大模型引起了广泛关注，它通过整合音乐的内在能力，展示了在文本生成方面的巨大潜力。ChatMusician由Skywork AI PTE. LTD.和香港科技大学的研究团队共同开发，它基于持续预训练和微调的LLaMA2模型，并通过一种文本兼容的音乐表示法——ABC符号，将音乐作为第二语言来处理。与传统的LLM相比，ChatMusician不仅能够理解音乐，还能生成具有结构性、全长的音乐作品，条件化于文本、和弦、旋律、动机、音乐形式等。

Figure 1 显示ChatMusician如何通过利用网络来源的音乐知识库和精心制作的音乐乐谱生成指令来学习。这种学习方式不仅让ChatMusician掌握了音乐生成的能力，还使其能够理解音乐，并能够以对话的方式与用户互动。ChatMusician能够执行多种任务，包括但不限于：

聊天（Chat）：与用户进行关于音乐的对话，提供音乐建议或回答音乐相关问题。
作曲（Compose）：基于给定的音乐元素，如和弦、旋律、节奏等，创作新的音乐作品。
回答大学水平的音乐理论问题（Answer college-level music theory questions）：展示其在音乐理论知识方面的理解能力，能够处理复杂的音乐理论问题。