长格式音乐生成的突破：时长可达 4 分 45 秒

最新推荐文章于 2024-08-14 22:29:49 发布

人工智能培训咨询叶梓

最新推荐文章于 2024-08-14 22:29:49 发布

阅读量1.8k

点赞数 41

分类专栏：人工智能前沿文章标签：语言模型人工智能音频生成音视频自然语言处理 AI 文生成

本文链接：https://blog.csdn.net/yetzi1975/article/details/139596269

版权

人工智能前沿专栏收录该内容

188 篇文章 0 订阅

订阅专栏

在音乐制作的世界中，人工智能正在逐步成为创意过程中不可或缺的伙伴。然儿，传统的音频生成模型通常受限于较短的音乐片段，无法捕捉到音乐作品中的长期结构和连贯性。Stability AI 的研究团队通过训练一个在长时间范围内工作的生成模型，成功克服了这一难题。他们的模型基于一个扩散变换器（diffusion transformer），操作在21.5 Hz的低潜在率上，能够生成具有自然音乐结构的完整音乐作品。

潜在扩散架构 (Latent Diffusion Architecture)

模型从文本提示生成最长可达4分45秒的立体声音乐，能够在44.1kHz的采样率下工作，确保了生成音乐的高保真度。该模型由三个主要部分组成：一个自编码器、一个基于CLAP的对比文本-音频嵌入模型，以及一个在自编码器潜在空间中运行的基于变换器的扩散模型。自编码器负责将原始音频波形压缩成可管理的序列长度，而扩散变换器则利用潜在扩散来生成音乐。

自编码器 (Autoencoder)

自编码器是潜在扩散架构的关键组成部分，它负责将原始音频波形转换成一个更加紧凑的潜在表示，然后再重构回原始波形。这一过程涉及到对音频信号的下采样和通道扩展，通过一系列精心设计的卷积块实现。自编码器的编码器部分使用步幅卷积（strided convolutions）进行下采样，同时扩展通道数，而解码器部分则使用转置步幅卷积（transposed strided convolutions）进行上采样和通道收缩。

与传统的DAC结构相比，该模型在激活函数中引入了一个可训练的β参数，这一创新之处允许模型更好地控制激活中的周期性，从而提高音频重建的质量。此外，为了减少信号的谐波失真，研究者在解码器的输出端去除了在DAC中使用的tanh()激活函数。

扩散变换器 (Diffusion-transformer, DiT)

扩散变换器（DiT）是生成模型的另一个核心组件，它采用了与卷积U-Net不同的结构。DiT基于标准的变换器架构，通过堆叠多个由注意力层和门控MLP组成的块，并通过跳跃连接增强了这些块之间的信息流动。在注意力层中，通过应用旋转位置嵌入（rotary positional embedding）来增强模型对序列顺序的感知能力。

为了有效处理长序列并减少计算和内存开销，研究者采用了高效的块状注意力（efficient block-wise attention）和梯度检查点（gradient checkpointing）技术。这些技术的运用使得DiT能够训练并生成长达4分45秒的音乐，同时保持了模型的可行性和效率。

变长音乐生成 (Variable-length music generation)

考虑到长格式音乐作品的长度各不相同，潜在扩散架构还支持变长音乐生成。这是通过在指定的时间窗口内生成音乐内容，然后利用时间条件填充到用户指定的长度来实现的。模型被训练以在剩余的信号中填充静默，以便在生成比窗口长度短的音频输出时，可以通过简单地裁剪附加的静默部分来呈现。

CLAP文本编码器 (CLAP text encoder)

在潜在扩散架构中，CLAP文本编码器扮演着至关重要的角色，它能够将文本提示转化为音频生成的上下文信息。该编码器基于对比学习，从文本-音频对中学习，以捕捉文本描述和音频内容之间的关联。它由一个基于HTSAT的音频编码器和一个基于RoBERTa的文本编码器组成，两者均从头开始在数据集上进行训练，以实现语言-音频对比损失。

训练设置 (Training Setup)

模型的训练是一个分阶段的过程，需要大量的计算资源。研究者在一个NVIDIA A100 GPU集群上进行训练，首先训练自编码器和CLAP模型，然后训练扩散模型。扩散模型的训练包括预训练和微调两个阶段：预训练阶段在最长3分10秒的音乐序列上进行，微调阶段则在最长4分45秒的序列上进行。所有模型的训练都采用了AdamW优化器，并使用了包括指数增长和衰减的调度器，以及权重衰减技术来提高模型的泛化能力。

实验

定量评估 (Quantitative Evaluation)

定量评估是通过一系列预先定义的指标来衡量模型生成音乐的质量。这些指标包括：

Fréchet距离 (Fréchet Distance): 使用OpenL3嵌入来衡量生成音乐与真实音乐之间的统计距离。
KL散度 (KL-Divergence): 在PaSST标签上计算，衡量生成音乐的概率分布与真实音乐的概率分布之间的差异。
LAION-CLAP空间中的距离 (Distance in LAION-CLAP Space): 评估生成音乐在LAION-CLAP特征空间中的位置与真实音乐的接近程度。

为了进行定量评估，研究者选择了MusicGen-large-stereo作为基线模型，因为它是唯一能够生成同样长度立体声音乐的公开模型。使用Song Describer Dataset (不含人声)作为基准数据集，生成的音乐长度分别与基线模型和真实音乐进行比较。通过这些指标，研究者能够定量地分析生成音乐的质量。

定性评估 (Qualitative Evaluation)

定性评估通过听众测试来衡量生成音乐的听觉体验，包括音乐质量、文本对齐、音乐结构、音乐性和立体声正确性等方面。研究者使用webMUSHRA框架进行在线听众测试，参与者包括音乐制作人和音乐研究人员。

音频质量 (Audio Quality): 评估生成音乐的听觉清晰度和保真度。
文本对齐 (Text Alignment): 评估生成音乐是否能够根据文本提示产生相应的音乐风格和情感。
音乐结构 (Musical Structure): 评估生成音乐是否具有连贯和逻辑性强的音乐结构。
音乐性 (Musicality): 评估生成音乐的总体艺术表现和音乐价值。
立体声正确性 (Stereo Correctness): 评估生成音乐的立体声分离和平衡是否自然。

测试结果显示，与MusicGen相比，新模型在所有评估方面都取得了更好的成绩，尤其是在立体声正确性上，新模型的表现显著优于基线模型。

自编码器评估 (Autoencoder Evaluation)

除了整体音乐生成模型的评估，研究者还对自编码器的音频重建质量进行了单独评估。这通过比较自编码器重建的音频与真实音频之间的质量指标来完成，包括：

STFT距离 (STFT Distance): 衡量短时傅里叶变换后的音频信号差异。
MEL距离 (MEL Distance): 在MEL频谱上衡量音频信号的差异。
SI-SDR (Scale-Invariant Signal-to-Distortion Ratio): 评估重建音频的信号保真度。

与其他公开的神经音频编解码器相比，如Encodec、DAC和AudioGen，新模型的自编码器在保持较低潜在率的同时，提供了可比或略低的重建质量，但实现了更大的时间下采样量。

音乐结构分析 (Musical Structure Analysis)

研究者还通过可视化生成音乐和真实音乐的二进制自相似性矩阵（SSMs）来分析音乐结构的合理性。通过比较生成音乐与真实音乐的SSMs，研究者发现生成音乐能够构建具有复杂转换和动机重复的结构，这与真实音乐的结构特征相似。

记忆分析 (Memorization Analysis)

为了防止模型简单地记忆训练数据中的重复元素，研究者进行了记忆分析。通过使用LAION-CLAP8音频编码器嵌入训练数据，并设置阈值来识别重复的音频片段，研究者发现训练集中存在5566个重复音频。进一步的分析表明，模型生成的音乐没有显示出对训练数据的记忆。

附加创意能力 (Additional Creative Capabilities)

除了文本条件长格式音乐生成，模型还展示了其他创意应用的潜力，如：

音频到音频的风格转换 (Audio-to-Audio Style Transfer): 通过在采样过程中使用音频初始化噪声，模型能够在保持参考音频结构的同时，根据文本提示修改现有录音的美学特征。
声乐音乐 (Vocal Music): 尽管模型的训练集中包含一些带声乐的音乐，但由于焦点是器乐音乐的生成，模型生成的声乐类音乐将包含类似人声的旋律，但没有可理解的歌词。
短格式音频生成 (Short-Form Audio Generation): 模型也能够生成训练集中包含的短音效或乐器样本等短格式音频。

这项研究标志着音乐生成技术的一个新里程碑，它不仅能够辅助人类艺术家，还能够激发新的创意表达方式。随着深度学习技术的不断进步，未来的音乐作品将如何被人工智能所塑造，这是一个值得所有人期待和探索的课题。

论文链接：https://arxiv.org/abs/2404.10301

项目地址：https://stability-ai.github.io/stable-audio-2-demo/

人工智能培训咨询叶梓

关注

41
点赞
踩
56

收藏

觉得还不错? 一键收藏
0
评论
长格式音乐生成的突破：时长可达 4 分 45 秒

在音乐制作的世界中，人工智能正在逐步成为创意过程中不可或缺的伙伴。然儿，传统的音频生成模型通常受限于较短的音乐片段，无法捕捉到音乐作品中的长期结构和连贯性。Stability AI 的研究团队通过训练一个在长时间范围内工作的生成模型，成功克服了这一难题。他们的模型基于一个扩散变换器（diffusion transformer），操作在21.5 Hz的低潜在率上，能够生成具有自然音乐结构的完整音乐作品。
复制链接

扫一扫