Zero-Shot Unsupervised and Text-Based Audio Editing Using DDPM Inversion

使用 DDPM 反转的零样本无监督和基于文本的音频编辑

论文地址: https://arxiv.org/abs/2402.10009

该论文探索了两种音频信号的零样本编辑技术,这些技术利用了预训练扩散模型上的DDPM反演。**第一种技术源自图像领域,允许基于文本进行编辑。第二种技术是一种新颖的方法,可以在没有监督的情况下发现语义上有意义的编辑方向。**当应用于音乐信号时,这种方法展示了一系列音乐上有趣的修改,从控制特定乐器的参与到对旋律的即兴演奏。

在本文中,我们探索了两种使用预训练音频 DDM 进行零样本音频编辑的方法,一种基于文本指导,另一种基于以无监督方式发现的语义扰动。我们的文本引导编辑技术允许进行广泛的操作,从改变音乐作品的风格或流派到改变编曲中的特定乐器(图1(c),(d)),同时保持高感知质量和与源信号的语义相似性。我们的无监督技术可以生成例如有趣的旋律变化,这些变化遵循原始的基调、节奏和风格,但通过文本指导是不可能实现的(图 1(a)、(b))。

我们的方法基于最近引入的editfriendly DDPM反演方法,用于提取源信号的潜在噪声向量。为了生成编辑后的信号,我们使用这些噪声向量进行DDPM抽样,同时将扩散漂移向所需的编辑方向。在基于文本的编辑中,我们通过改变提供给去噪模型的文本提示来实现这一点。在我们的无监督方法中,我们扰动去噪器的输出,使其沿着后验的前几个主成分(PCs)的方向变化,这些主成分是基于Manor & Michaeli (2024)进行高效计算的。我们的研究表明,这些扰动对于编辑音乐片段尤其有用,可以揭示即兴演奏和其他在音乐上合理的修改。

在这里插入图片描述
图 1.零样本音频编辑。我们提出了两种使用 DDM 编辑音频信号的方法,一种新颖的无监督方法(左)和一种从图像领域采用的基于文本的方法(右)。两种方法都可以编辑从风格到乐器的各种概念。 (a) 歌手(弯曲的音高)被移除,而其余信号保持不变。 (b) 旋律音符发生变化,反映在主音高的变化上。 © 类型发生变化,影响频谱图的整个统计数据。 (d) 乐器从木管乐部分变为钢琴,从钢琴键的起音(突然启动)可见。所有示例都可以在我们的示例页面中收听。对于 ©、(d),Tstart 分别 = 100、70(第 3.2 节)。对于 (a),(b),Tstart = 150, 200,t′ = 115, 80,Tend = 1,使用前 3 个 PC(第 3.3 节)。

Related Work

专门用于音频编辑的常见方法是针对该特定任务训练专门的模型。MusicGen(Copet et al., 2023)和MusicLM(Agostinelli et al., 2023)是针对音乐编辑的语言模型,它们可以根据文本和可选的旋律生成音频。使用MusicGen编辑音乐片段是通过在生成时将条件设置为片段的色谱图,并提供描述所需编辑的文本提示来实现的。然而,由于它依赖于色谱图,它通常无法编辑复调音乐。MusicLM的条件设置建立在一种名为MuLan的新型专有联合音乐文本嵌入空间之上,用于编码单声部旋律。另一种方法是从图像领域借鉴的,即训练基于指令的扩散模型进行编辑。这已经用于一般音频(Wang et al., 2023)以及特别用于音乐(Han et al., 2023)。这些方法仅限于一小部分修改(例如,“添加”,“删除”,“替换”)并且需要在大型数据集上进行三元组的训练(文本提示,输入音频和输出音频)。我们的方法无需训练,不受固定指令集的限制。

有些研究利用大型预训练模型进行编辑,而不是从头开始训练模型。Paissan et al.(2023)和Plitsis et al.(2023)展示了从图像领域借鉴的测试时优化方法(Gal et al., 2022; Kawar et al., 2023; Ruiz et al., 2023)对音频信号的编辑的有效性。这些方法要么微调扩散模型以重建给定的信号(Ruiz et al., 2023),要么优化文本嵌入以重建信号(Gal et al., 2022),要么两者兼而有之(Kawar et al., 2023)。然而,为每个信号优化一个新模型在计算上是密集的。此外,这些方法在改变特定概念时存在困难,例如,仅将音乐片段中的钢琴替换为五弦琴。我们的技术避免了测试时优化,并且可以实现专注的编辑。

一些研究侧重于使用预训练的扩散模型进行零样本编辑。也许最简单的方法是SDEdit(Meng et al., 2021),它向信号添加噪声,然后通过不同的文本提示将其运行通过反向扩散过程。SDEdit最近被用于音频(Liu et al., 2023a)以及钢琴卷音乐(Zhang et al., 2023a)。然而,它在文本粘附度和原始信号粘附度之间存在严重的权衡。另一个方向是在图像领域变得流行的,即使用提取与源信号相对应的扩散噪声向量的反演技术。其中一种方法是DDIM反演(Song et al., 2021; Dhariwal & Nichol, 2021)。这种方法单独用于编辑图像被发现效果不佳,因此通常在扩散过程中伴随着对注意力图的干预(Hertz et al., 2022; Cao et al., 2023; Tumanyan et al., 2023)。另一种方法是DDPM反演(Huberman-Spiegelglas et al., 2023; Wu & De la Torre, 2023),在概念上类似,但适用于DDPM抽样方案。在这里,我们采用Huberman-Spiegelglas等人的DDPM反演方法(2023),该方法在图像领域展示了最先进的结果。

无监督编辑在无任何指导或参考样本的情况下,在GANs的背景下进行了详尽的研究(Spingarn et al., 2020; Shen et al., 2020; Shen & Zhou, 2021; Wu et al., 2021)。最近,有几项工作提出了一种在扩散模型的瓶颈特征(h-space)中以无监督方式找到编辑方向的方法(Kwon et al., 2022)(Haas et al., 2023; Park et al., 2023; Jeong et al., 2024)。我们在本文中探讨的无监督方法是在扩散模型的噪声空间中找到编辑方向。这是通过 Manor & Michaeli (2024) 的方法进行的,该方法量化了高斯去噪中的不确定性。

Method

在这里插入图片描述
我们首先使用DDPM反演提取与输入信号对应的噪声向量,可选择地基于文本提示psrc进行条件设置。对于基于文本的编辑方法,我们然后使用不同的文本提示继续反向过程。对于无监督方法,当应用于正向过程计算的主成分时,我们继续反向过程。红色显示了反向过程中发生的变化

1. DDPM Inversion

去噪扩散概率模型(DDPM)(Ho et al., 2020)通过迭代过程生成样本,该过程从高斯噪声向量 xT ∼ N (0, I) 开始,并在 T 个步骤中逐渐对其进行去噪,如下所示 :
在这里插入图片描述
这里,{zt} 是独立同分布的标准高斯向量,{σt} 是噪声水平的递增序列,μt(xt) 是 ˆ x0|t 的线性函数,它是干净信号 x0 的 MSE 最优预测它的嘈杂版本。
在这里插入图片描述

系数 { ̄ αt} 从 1 单调递减到 0。这里我们感兴趣的是编辑真实的音频摘录 x0,而不是生成合成信号。为此,我们遵循 Huberman-Spiegelglas 等人的一般方法。 (2023)以及吴和德拉托雷(2023)。具体来说,我们首先提取噪声向量 {xT , zT , …, z1} ,这些噪声向量导致采样过程 (1) 在 t = 0 时生成给定信号 x0 。这称为反转。然后,我们使用这些噪声向量使用 (1) 对信号进行采样,同时引导生成达到所需的编辑效果,如第 3.2 节和第 3.3 节中详细介绍的那样。为了提取噪声向量,我们使用 Huberman-Spiegelglas 等人的编辑友好的 DDPM 反演方法。 (2023)。该方法接受源信号 x0 作为输入,并从中生成辅助向量序列。
在这里插入图片描述
虽然以这种方式构建的噪声向量与参与原始生成过程 (1) 的噪声向量具有不同的分布,但它们已被证明可以更强地编码信号 x0 的全局结构,使它们特别适合编辑任务。我们注意到,扩散过程可以在原始波形空间或某些潜在空间中执行(Rombach 等人,2022)。在这项工作中,我们利用预训练的 AudioLDM2(Liu 等人,2023a;b)模型,该模型在潜在空间中工作。 AudioLDM2 生成以文本为条件的梅尔频谱图。使用 HiFi-GAN 将这些梅尔频谱图解码为波形(Kong 等人,2020)。

2. Text-Based Editing

我们考虑的第一种编辑方法是使用文本指导。在这种情况下,我们的目标是通过使用描述所需结果的文本提示pedit来编辑实际音频信号x0。可选地,用户还可以使用一些文本提示psrc来描述原始信号,以实现更精细的修改。为了实现这一目标,我们采用了HubermanSpiegelglas等人的方法(2023),该方法仅在图像领域进行了探索。具体来说,我们首先使用(3),(4)反演信号x0。在进行此操作时,我们将描述源信号的提示psrc注入去噪器网络中。这在图2的左窗格中进行了说明。然后,我们使用提取的噪声向量运行生成过程(1),同时注入描述所需输出的提示pedit(图2的右上窗格)。在两个方向上,我们使用无分类器指导(Ho & Salimans, 2021)进行文本指导。从源信号提取的噪声向量确保生成的信号具有与源信号相同的“粗结构”,而文本条件的更改影响更细粒度的特征,并导致编辑效果。遵循目标文本和保持对原始信号忠诚之间的平衡可以使用两个参数来控制。第一个参数是无分类器指导的强度因子。增加此参数会在牺牲与原始信号的一致性的情况下,更强烈地引导生成到所需文本。第二个参数是我们开始生成过程的时间步长Tstart。该时间步长通常可以小于T,并且它越小,编辑后信号与源信号保持一致性越强(请参阅Sec. 4.3中的示例)。我们注意到,编辑可以限制在用户选择的段落中,而不是应用于整个信号(请参见App. B)。

3. Unsupervised Editing

使用文本引导进行编辑受到文本提示的表达能力和模型语言理解的限制。在音乐领域,这可能非常重要,用户可能希望生成变化、即兴演奏或对乐曲的编排进行修改,这些几乎无法通过文本准确描述。为了支持这些类型的编辑,我们追求一种不同的方法,即以无监督的方式在扩散模型的噪声空间中提取语义上有意义的编辑方向。正如我们所展示的,这些方向可以以多种方式扰动生成过程,从而实现对信号的可控语义修改。与第3.2节类似,我们首先执行友好的DDPM反演来提取与x0对应的噪声向量,可选择使用描述信号的文本提示psrc。然后,我们在采样过程中使用这些向量(1),但带有扰动。具体而言,回顾第3.1节,每个时间步t涉及ˆ x0|t,即从xt对x0的MSE最优预测。这个预测是从去噪器获得的,对应于后验均值E[x0|xt]。我们的方法是沿着后验的前几个主成分(PCs),即后验协方差的顶部特征向量,扰动这个后验均值Cov[x0|xt]。这种方法最近在逆问题的不确定性可视化中进行了研究(Nehme et al., 2023; Manor & Michaeli, 2024),在那里它被证明可以很好地揭示关于MSE最优预测的不确定性的主导模式。

为了计算后验 PC,我们使用 Manor & Michaeli (2024) 的方法。这项工作表明,高斯去噪中的后验协方差与 MSE 最优去噪器的雅可比行列式成正比。它进一步表明,可以使用子空间迭代方法(Saad,2011)提取该雅可比行列式的顶部特征向量和特征值,其中每次迭代都可以使用通过降噪器网络的单个前向传递来近似。参见应用程序。 C 的详细算法。在某个时间步 t′ 计算出后验 PC {vi|t′ } 及其相应的特征向量 {λi|t′ } 后,我们可以在每个时间步 t ∈ [Tstart 时将它们分别添加到去噪信号 ˆ x0|t , . 。 。 , Tend] 使用匹配因子 γλ1/2 i|t ,其中 γ 是用户选择的控制修改强度的参数。正如我们在应用程序中所示。 C,将向量 γλ1/2 i|t vi|t′ 添加到 ˆ x0|t,相当于将其添加到等式 (1) 中的 μt(xt)。 (1) 具有修正系数。具体来说,这将生成过程修改为
在这里插入图片描述

  • 20
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值