[文献阅读] Seen and Unseen emotional style transfer for voice conversion with a new emotional speech dat_seen and unseen emotional style transfer for…-CSDN博客

本文链接：https://blog.csdn.net/weixin_53834244/article/details/147565693

文献信息：[2010.14794] Seen and Unseen emotional style transfer for voice conversion with a new emotional speech dataset 该文提出了DeepEST用于语音情感转换的模型，并且制作并开源了一个中英双语的情感语音数据集ESD，可用于语音情感转换，情感语音TTS等多项任务。

摘要

**情感语音转换（Emotional voice conversion）**的目的是在保留语言内容和说话人音色的同时，对言语中的情感韵律进行转换。

本文基于变分自编码器和生成对抗网络(VAW-GAN)的框架上提出了一个新模型框架DeepEST，该框架利用预训练的**语音情感识别(SER)**模型在训练和运行时推理过程中转移情感风格。通过这种方式，网络能够将可见的和不可见的情感风格转移到新的话语中。

所提出的框架通过持续优于基线框架而取得了显著的性能。本文还标志着用于语音转换的**情感语音数据集(ESD)**的发布，该数据集具有多个speaker和语言。

情感特征分析

情感的特征分析一直是SER的研究重点，比如将语音离散化为包含了情感信息的特征数据上。

我们感兴趣的是使用深度情感特征进行语音转换，在连续空间中描述情感韵律。其思路是利用参考语音的深层情感特征，将其情感风格转移到输出目标语音中。为了激发这一想法，我们使用t-SNE算法在二维平面上可视化了4名说话者(2男2女)的深层情感特征，如图所示。可以观察到，深层情绪特征在特征分布上形成了清晰的情绪组。

在这里插入图片描述

我们可以使用情感特征作为一种风格嵌入来编码一个情感类。在这一结果的驱动下，我们通过深度情感特征提出了一个一对多的情感风格迁移框架。

在语音SER的推动下，本文提出了一种基于VAW-GAN的一对多情感风格迁移框架模型，该模型利用了深层情感特征的条件解码器。被称为deepEST。

deepEST

在这里插入图片描述

情感描述模块

在这里插入图片描述

议使用SER模型作为情感描述D，功能是从输入话语X提取深层情感特征Φ，即Φ= D(X)。

SER架构，包括:

1)一个三维(3-D) CNN层;
2)BLSTM层;
3)注意层;
4)全连接(FC)层.

3-D CNN首先将具有delta和delta-delta特征的输入Mel-spectrum投影成固定大小的潜在表示，在保留有效情感信息的同时减少情感无关因素的影响。然后，为了进行情感预测，下面的BLSTM和注意力层总结前一层的时间信息，并产生区分的句子级特征Φ。

这个SER模块就是对输入的句子进行情感分类，同时在中间提取出句子级的向量表示。

VAW-GAN

在这里插入图片描述

与传统的VAW-GAN流程不同，deepEST提出了一种编码器-解码器训练过程.

如图所示，其中编码器(E)学习从输入特征中去除情感元素，并生成一个潜在表征z。假设得到的表征z包含语音和说话人信息，但与情感无关。然后，解码器/生成器(G)学习用与情绪无关的表示z和其他可控的情绪相关属性（从情感描述模块得到）重建输入特征。

训练

使用WORLD声码器从波形中提取频谱特征(SP)和基频(F0)。编码器(Eθ)暴露于具有不同情绪类型的输入梅尔频谱帧x中，并学习一个与情绪无关的表示z: z =Eθ(x)。由于从源频谱中提取的潜在表示z仍然包含源F0信息，并且转换性能可能会受到这个缺陷的影响。因此，参数集为ψ的解码器/生成器(Gψ)取与情绪无关的表示z和与情绪相关的特征:反映阶段I输入话语X的全局情感方差的深层情感特征Φ和对应的包含源音高信息的F0，以重新组合频谱的情感元素。

重构特征x可表示为
$\overline x = G_ψ(z, Φ_t, \hat F_0) = G_ψ(E_θ(x),D(X), F_0)$
然后，通过对抗性训练训练频谱的生成模型:参数集µ的鉴别器(Yµ)试图最大化真实特征x和重构特征x之间的损失，而生成器(Gψ)试图最小化它。参数集θ、ψ和µ通过这个最小-最大博弈(min-max
game)得到优化，这使我们能够生成高质量的语音样本。

推理时转换

任务：在运行时转换期间，我们有一个以中性情绪表达的源话语，我们希望将其转换为遵循参考话语中的参考情绪风格的目标情感。

假设我们有一组属于某个情绪类别的参考话语 $X_t$ 。我们首先使用预训练的SER生成所有参考话语的深层情感特征 $Φ_t=mean(D(X_t))$ ，即我们数据集中具有相同参考情感的所有话语。然后，我们将Φt与转换后的 $F_0(\hat F_0)$ 和来自源话语的与情绪无关的z连接起来，构成目标话语梅尔谱（SP）的潜在表示。转换后的SP可以表示为:
$\hat x = G_ψ(z, Φ_t, \hat F_0) = G_ψ(E_θ(x), mean(D(X_t)), \hat F_0)$