长格式音乐生成的突破:时长可达 4 分 45 秒

在音乐制作的世界中,人工智能正在逐步成为创意过程中不可或缺的伙伴。然儿,传统的音频生成模型通常受限于较短的音乐片段,无法捕捉到音乐作品中的长期结构和连贯性。Stability AI 的研究团队通过训练一个在长时间范围内工作的生成模型,成功克服了这一难题。他们的模型基于一个扩散变换器(diffusion transformer),操作在21.5 Hz的低潜在率上,能够生成具有自然音乐结构的完整音乐作品。

潜在扩散架构 (Latent Diffusion Architecture)

模型从文本提示生成最长可达4分45秒的立体声音乐,能够在44.1kHz的采样率下工作,确保了生成音乐的高保真度。该模型由三个主要部分组成:一个自编码器、一个基于CLAP的对比文本-音频嵌入模型,以及一个在自编码器潜在空间中运行的基于变换器的扩散模型。自编码器负责将原始音频波形压缩成可管理的序列长度,而扩散变换器则利用潜在扩散来生成音乐。

自编码器 (Autoencoder)

自编码器是潜在扩散架构的关键组成部分,它负责将原始音频波形转换成一个更加紧凑的潜在表示,然后再重构回原始波形。这一过程涉及到对音频信号的下采样和通道扩展,通过一系列精心设计的卷积块实现。自编码器的编码器部分使用步幅卷积(strided convolutions)进行下采样,同时扩展通道数,而解码器部分则使用转置步幅卷积(transposed strided convolutions)进行上采样和通道收缩。

与传统的DAC结构相比,该模型在激活函数中引入了一个可训练的β参数,这一创新之处允许模型更好地控制激活中的周期性,从而提高音频重建的质量。此外,为了减少信号的谐波失真,研究者在解码器的输出端去除了在DAC中使用的tanh()激活函数。

扩散变换器 (Diffusion-transformer, DiT)

扩散变换器(DiT)是生成模型的另一个核心组件,它采用了与卷积U-Net不同的结构。DiT基于标准的变换器架构,通过堆叠多个由注意力层和门控MLP组成的块,并通过跳跃连接增强了这些块之间的信息流动。在注意力层中,通过应用旋转位置嵌入(rotary positional embedding)来增强模型对序列顺序的感知能力。

为了有效处理长序列并减少计算和内存开销,研究者采用了高效的块状注意力(efficient block-wise attention)和梯度检查点(gradient checkpointing)技术。这些技术的运用使得DiT能够训练并生成长达4分45秒的音乐,同时保持了模型的可行性和效率。

变长音乐生成 (Variable-length music generation)

考虑到长格式音乐作品的长度各不相同,潜在扩散架构还支持变长音乐生成。这是通过在指定的时间窗口内生成音乐内容,然后利用时间条件填充到用户指定的长度来实现的。模型被训练以在剩余的信号中填充静默,以便在生成比窗口长度短的音频输出时,可以通过简单地裁剪附加的静默部分来呈现。

CLAP文本编码器 (CLAP text encoder)

在潜在扩散架构中,CLAP文本编码器扮演着至关重要的角色,它能够将文本提示转化为音频生成的上下文信息。该编码器基于对比学习,从文本-音频对中学习,以捕捉文本描述和音频内容之间的关联。它由一个基于HTSAT的音频编码器和一个基于RoBERTa的文本编码器组成,两者均从头开始在数据集上进行训练,以实现语言-音频对比损失。

训练设置 (Training Setup)

模型的训练是一个分阶段的过程,需要大量的计算资源。研究者在一个NVIDIA A100 GPU集群上进行训练,首先训练自编码器和CLAP模型,然后训练扩散模型。扩散模型的训练包括预训练和微调两个阶段:预训练阶段在最长3分10秒的音乐序列上进行,微调阶段则在最长4分45秒的序列上进行。所有模型的训练都采用了AdamW优化器,并使用了包括指数增长和衰减的调度器,以及权重衰减技术来提高模型的泛化能力。

实验

定量评估 (Quantitative Evaluation)

定量评估是通过一系列预先定义的指标来衡量模型生成音乐的质量。这些指标包括:

  1. Fréchet距离 (Fréchet Distance): 使用OpenL3嵌入来衡量生成音乐与真实音乐之间的统计距离。
  2. KL散度 (KL-Divergence): 在PaSST标签上计算,衡量生成音乐的概率分布与真实音乐的概率分布之间的差异。
  3. LAION-CLAP空间中的距离 (Distance in LAION-CLAP Space): 评估生成音乐在LAION-CLAP特征空间中的位置与真实音乐的接近程度。

为了进行定量评估,研究者选择了MusicGen-large-stereo作为基线模型,因为它是唯一能够生成同样长度立体声音乐的公开模型。使用Song Describer Dataset (不含人声)作为基准数据集,生成的音乐长度分别与基线模型和真实音乐进行比较。通过这些指标,研究者能够定量地分析生成音乐的质量。

定性评估 (Qualitative Evaluation)

定性评估通过听众测试来衡量生成音乐的听觉体验,包括音乐质量、文本对齐、音乐结构、音乐性和立体声正确性等方面。研究者使用webMUSHRA框架进行在线听众测试,参与者包括音乐制作人和音乐研究人员。

  1. 音频质量 (Audio Quality): 评估生成音乐的听觉清晰度和保真度。
  2. 文本对齐 (Text Alignment): 评估生成音乐是否能够根据文本提示产生相应的音乐风格和情感。
  3. 音乐结构 (Musical Structure): 评估生成音乐是否具有连贯和逻辑性强的音乐结构。
  4. 音乐性 (Musicality): 评估生成音乐的总体艺术表现和音乐价值。
  5. 立体声正确性 (Stereo Correctness): 评估生成音乐的立体声分离和平衡是否自然。

测试结果显示,与MusicGen相比,新模型在所有评估方面都取得了更好的成绩,尤其是在立体声正确性上,新模型的表现显著优于基线模型。

自编码器评估 (Autoencoder Evaluation)

除了整体音乐生成模型的评估,研究者还对自编码器的音频重建质量进行了单独评估。这通过比较自编码器重建的音频与真实音频之间的质量指标来完成,包括:

  1. STFT距离 (STFT Distance): 衡量短时傅里叶变换后的音频信号差异。
  2. MEL距离 (MEL Distance): 在MEL频谱上衡量音频信号的差异。
  3. SI-SDR (Scale-Invariant Signal-to-Distortion Ratio): 评估重建音频的信号保真度。

与其他公开的神经音频编解码器相比,如Encodec、DAC和AudioGen,新模型的自编码器在保持较低潜在率的同时,提供了可比或略低的重建质量,但实现了更大的时间下采样量。

音乐结构分析 (Musical Structure Analysis)

研究者还通过可视化生成音乐和真实音乐的二进制自相似性矩阵(SSMs)来分析音乐结构的合理性。通过比较生成音乐与真实音乐的SSMs,研究者发现生成音乐能够构建具有复杂转换和动机重复的结构,这与真实音乐的结构特征相似。

记忆分析 (Memorization Analysis)

为了防止模型简单地记忆训练数据中的重复元素,研究者进行了记忆分析。通过使用LAION-CLAP8音频编码器嵌入训练数据,并设置阈值来识别重复的音频片段,研究者发现训练集中存在5566个重复音频。进一步的分析表明,模型生成的音乐没有显示出对训练数据的记忆。

附加创意能力 (Additional Creative Capabilities)

除了文本条件长格式音乐生成,模型还展示了其他创意应用的潜力,如:

  • 音频到音频的风格转换 (Audio-to-Audio Style Transfer): 通过在采样过程中使用音频初始化噪声,模型能够在保持参考音频结构的同时,根据文本提示修改现有录音的美学特征。
  • 声乐音乐 (Vocal Music): 尽管模型的训练集中包含一些带声乐的音乐,但由于焦点是器乐音乐的生成,模型生成的声乐类音乐将包含类似人声的旋律,但没有可理解的歌词。
  • 短格式音频生成 (Short-Form Audio Generation): 模型也能够生成训练集中包含的短音效或乐器样本等短格式音频。

这项研究标志着音乐生成技术的一个新里程碑,它不仅能够辅助人类艺术家,还能够激发新的创意表达方式。随着深度学习技术的不断进步,未来的音乐作品将如何被人工智能所塑造,这是一个值得所有人期待和探索的课题。

论文链接:https://arxiv.org/abs/2404.10301

项目地址:https://stability-ai.github.io/stable-audio-2-demo/

  • 41
    点赞
  • 56
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值