ESVC论文笔记

最新推荐文章于 2024-10-18 12:21:58 发布

猪猪想上树

最新推荐文章于 2024-10-18 12:21:58 发布

阅读量1k

点赞数 11

文章标签：论文阅读

本文链接：https://blog.csdn.net/weixin_46103454/article/details/141233466

版权

ESVC: COMBINING ADAPTIVE STYLE FUSION AND MULTI-LEVEL FEATURE DISENTANGLEMENT FOR EXPRESSIVE SINGING VOICE CONVERSION阅读笔记

发现问题

虽然SVC在自然度和相似度方面都取得了很好的效果,但音频中除了歌手身份之外,情感表达也是传递歌手感情和态度的必要条件，现有的模型在情感表达上还有待提升。
歌曲的情感元素与歌手的身份是非常纠结的,所以加强一个可能会削弱另一个，导致整体表现力的缺乏。因此，有必要引入身份聚类损失来抵消情感聚类带来的身份偏见。

解决问题

提出一种表达性的SVC框架即ESVC,它可以同时转换歌手的身份和情感风格, ESVC结合了风格融合和特征分离的思想，力求在情感风格和歌手身份方面最大限度地忠实
具体实现：
采用自适应实例归—化（AdalN）取代添加功能，融合内容特征和风格特征。考虑到信息泄露的可能性，引入了两种面向解纠缠的方法来解耦不同种类的歌唱特征。(1)互信息(MI)用于降低语言内容、基频(FO)和歌手、情感表达特征之间的相关性。(2)对抗性三联体损失则用于解耦身份和情感元素。

模型结构

在这里插入图片描述
选择ContentVec作为内容编码器,基于ppg的ContentVec模型有望贡献更多的纯内容信息,包含更少的非语言信息。基于hifi-gan的生成器,它以内容变量z、表达嵌入g和基频特征f0为条件，重构原始波形x。

实现方法

1、AdaIN ResBlock模块
目的：为了充分融合内容特征和风格特征，在后验编码器、归—化流、FO解码器和解码器四个模块中引入了两个具有自适应实例归-化(AdalN)残块。
在这里插入图片描述
其中，c和g分别表示单通道的内容特征映射和表达嵌入。μ(·）和σ(·）表示通道均值和标准差。通过线性投影从g中得到调制项Lσ(g)和加法项Lμ（g），作为风格迁移的影响因素。通过它，在每个通道中，可以将风格特征有机地注入到内容特征中。此外，残块的整合可以进一步增加转换歌曲的自然度和风格表现力。
2、Mutual Information 损失
MI损失用于减少内容表示xc、歌手与情感表示g和FO表示FO之间的相互依赖关系。利用一种对抗的思想,使各表征解耦更干净。变分对比对数比上界(vCLUB)来测量MI。
在这里插入图片描述
I(X, Y):表示随机变量X和Y之间的互信息。I(X, Y)的值越小,表示X和Y之间的X相互依赖程度越低,即它们之间的相关性越小。p(X,Y)：表示X和Y的联合概率分布。 $q\theta(Y_1X)$ :表示给定×时, Y的条件概率分布,它是一个变分分布,用来近似真实X的条件概率分布 p(Y | X)。p(X)和p(Y):分别表示X和Y的边缘概率分布。互信息I(X, Y)等于在X和Y的联合分布下,给定X时, Y的条件概率分布的对数X期望值,减去X和Y的边缘分布下, Y的条件概率分布的对数期望值。
在这里插入图片描述
公式3 是公式 2 的无偏估计,互信息^I(X, Y)等于所有样本对(xi, yi)和(xi, yj)的对数概率比值之和，再除以样本数量的平方。它通过样本数据来近似计算两个随机变量之间的互信息,从而衡量它们之间的相关性。

其中 $\widehat I(x_ {c} , g)$ :表示内容表示xc和表达表示g之间的互信息。
$\widehat I(x_c, fo)$ ：表示内容表示 xc 和音高表示 f0 之间的互信息。
$\widehat I(g, fo)$ :表示表达表示g和音高表示fo之间的互信息。
互信息损失LMI等于内容表示、表达表示和音高表示两两之间的互信息之和。通过最小化 LMI，可以降低这些唱歌特征表示之间的相关性，从而实现特征解耦。
3、Adversarial Triplet 损失
为了解决不能很好地将两种不同类型的表达元素(歌手身份和情感风格)同时转换。以往的研究旨在将身份与风格直接解耦，但这种解耦只是利用了同一样本的特征。
在这里插入图片描述
在融合前将情感嵌入和身份嵌入连接起来,然后对不同样本之间的混合嵌入进行聚类。我们采用三元损失作为聚类的向导。

三元组损失：
在这里插入图片描述

其中 $a_i$ , $p_i$ , $n_i$ 构成两个三元组，表示第i批的嵌入对,分别包括歌手空间和情感空间的锚点样本、正样本和负样本。d(.)为L1距离。 $\alpha_1$ , $\alpha_2$ 是在正对和负对之间的距离边界，小于0的一个值，不然当 $a_i$ , $p_i$ , $n_i$ 都等0时，既满足条件，但都等于0时不符合要求。它们在正对和负对之间强制执行距离界限。通过对歌手身份和情感风格的对抗性三重体Lsin和Lemo的损失，可以保证所有正对之间的距离比负对之间的距离要小。
总损失：
在这里插入图片描述
总损失函数包括:对抗损失Ladv(G)和Ladv(D), KL损失Lkl, mel和FO重构损失Lrec和Lfo,特征匹配损失Lfm(G),另一部分是由权值入MI控制的互信息损失LMI。最后1是对抗性三联体损失,包括情绪导向损失Lemo和歌手导向损失Lsin.