Cyclegan-for-music-generate

最新推荐文章于 2022-10-18 20:03:11 发布

Asthestarsfalll

最新推荐文章于 2022-10-18 20:03:11 发布

阅读量359

点赞数

本文链接：https://blog.csdn.net/weixin_50476352/article/details/119328667

版权

论文名称：Symbolic Music Genre Transfer with CycleGAN

作者：Gino Brunner, Yuyi Wang, Roger Wattenhofer and Sumu Zhao

Code：https://github.com/sumuzhao/CycleGAN-Music-Style-Transfer

前言

本文使用Cycle Gan实现了不同音乐类型的转换，在原有模型的基础上，引入了新的loss提升生成的音乐质量.

网络结构

标识（嫌太麻烦可以先看2.1）：

蓝线：表示从源域A到目标域B再到源域A的转换
红线：表示从目标域B到源域A再到目标域B的转换
黑线：指向损失函数
$G_{A\rightarrow B},G_{B\rightarrow A}$ ：表示在两个域之间转换的生成器
$D_A,D_B$ ：表示两个域的判别器
$D_{A,m},D_{B,m}$ 表示两个额外的判别器，其迫使生成器学习更多的高级特征
$x_A,x_B$ ：表示来自源域A和目标域B中的真实样本数据，同时也是网络的输入
$\hat{x}_B$ ：表示转换到目标域B的样本数据，记为 $\hat x_B=G_{A\rightarrow B}(x_A)$
$\tilde{x}_B$ ：表示转换回目标域B的样本数据，记为 $\tilde{x}_B=G_{A\rightarrow B}(\hat{x}_A)=G_{A\rightarrow B}(G_{B\rightarrow A}(x_B))$
$\tilde{x}_A$ ：表示转换回源域A的样本数据，记为 $\tilde{x}_A=G_{B\rightarrow A}(\hat{x}_B)=G_{B\rightarrow A}(G_{A\rightarrow B}(x_A))$
$\hat{x}_A$ ：表示转换到源域A的样本数据，记为 $\hat{x}_A=G_{B\rightarrow A}(x_B)$
M：是一个包含多个域的音乐集，例如 $M=A\cup B$ ，但也可能 $M\supset A\cup B$
$x_M$ ：表示来自M的样本数据

对于各种样本数据，带有 $\hat{}$ 上标表示中间输出，带有 $\tilde{}$ 上标表示最终输出

简化结构

让我们分以下几步来简化这个结构

忽略判别器，因为判别器就相当于一个损失函数
只提取出其中的 $G_{A\rightarrow B},G_{B\rightarrow A}$

接下来，让我们仅仅针对 $x_A$ 来看一下它的对抗网络之旅

首先 $x_A$ 会输入 $G_{A\rightarrow B}$ 得到中间输出 $\hat{x}_B$
$\hat{x}_B$ 会输入 $G_{B\rightarrow A}$ 得到最终输出 $\tilde{x}_A$

至此，我们称这是一个循环，我们会对中间输出 $\hat{x}_B$ 和 $x_B$ 求损失

同理，对于 $x_B$ ，会进行一个反向的循环，即先输给 $G_{B\rightarrow A}$ 再输入给 $G_{A\rightarrow B}$ ，得到 $\hat{x}_A$ 和 $\tilde{x}_B$ ，同样会对 $\hat{x}_A$ 和 $x_A$ 求损失

此时我们得到了两个最终输出 $\tilde{x}_A,\tilde{x}_B$ ，分别和 $x_A,x_B$ 求损失( 见下循环一致损失)

生成器结构

判别器结构

分类器结构

损失函数

生成器损失

总损失如下
$L_G=l_{G_{A\rightarrow B}}+l_{G_{B\rightarrow A}}+\lambda L_c$
其分为两个部分：对抗损失和循环一致损失

这里的 $\lambda$ 表示循环一致损失的权重，论文中是10

对抗损失

使用 $L2\quad loss$ 来作为生成器的损失
$L_{G_{A\rightarrow B}}=||D_B(\hat{x}_B)-1||_2\\ L_{G_{B\rightarrow A}}=||D_A(\hat{x}_A)-1||_2$
对于生成器，我们希望其生成的数据都被判定为真，从而欺骗判别器，因此这里减去1，1即代表着标签

循环一致损失

在此前的工作中，为了加强前后一致性，进入了一个 $L1\quad norm$ 作为损失项，被称为循环一致损失( cycle consistency loss)
$L_c=||\tilde{x}_A-x_A||_1+||\tilde{x}_B-x_B||_1$
循环一致损失保证了输入经过两个生成器之后，即完成了一次循环，最终能被映射回自身

如果取消循环一致损失，输入与输出之间的关系将大大减弱

同时，循环一致损失也可以看做一个正则化项，它保证了生成器不忽略输入的数据，而是保留更多必要信息，以完成反向转换

判别器损失

$L_{D,all}=L_D+\gamma(L_{D_{A,m}}+L_{D_{B,m}})$

GAN的训练是高度不平衡的，通常在早期判别器会过度强大，从而导致网络收敛到一个很差的局部最优

此外，对于风格迁移任务还存在着另一个困难：生成器需要学习源域和目标域的两种特征来欺骗判别器，然而生成器可以通过生成某种音乐类型独有的模式来欺骗判别器，这样即使判别器被欺骗了，生成器的生成也不一定是真实的。因此添加了两个额外的判别器来迫使生成器学习到更优的高级特征，并且使用了约束损失（我自己这么叫的）

其中 $\gamma$ 用来加权鉴别器的额外损失，论文中是1

为了保持训练的稳定性，同时添加了高斯噪声到判别器的输入（这应该是为了缓解判别器前期过于强大的情况）