CROSS-UTTERANCE CONDITIONED COHERENT SPEECH EDITING VIA BIASED TRAINING AND ENTIRE INFERENCE

CROSS-UTTERANCE CONDITIONED COHERENT SPEECH EDITING VIA BIASED TRAINING AND ENTIRE INFERENCE

通过偏置训练和完整推断来跨话语条件连贯语音编辑(ICLR2023)

摘要

基于文本的语音编辑系统被开发用来让用户对语音进行选择、剪切、复制和粘贴操作。现存性能最佳的 基于神经网络编辑系统 无一例外的只进行部分推理,即仅仅生成需要被插入或替换的新单词。这种方式通常会导致编辑后的部分韵律与前后不一致,并且无法处理语调的变化。为了解决这些问题,我们提出了跨话语条件连贯语音编辑系统,该系统首次提出了完整推理。受益于跨话语条件变分自动编码器,我们提出的系统可以通过利用说话者的信息、文本、声学特征和未剪辑的原始声音的梅尔频谱。此外,我们应用偏置训练将更多的注意力集中到需要重建的部分。对主观和客观指标进行的实验表明,我们的方法在自然性和韵律一致性方面的各种编辑操作上优于部分推理方法。

1.引言

语音编辑可应用于各种个性化语音需求、对语音自然度要求较高的领域,包括社交媒体、游戏、电影配音等视频创作。传统的语音编辑工具(Derry,2012)允许用户进行弯音、降噪、修改音量、剪切、复制和粘贴波形等功能。其中,标准的语音编辑工作在修改需要的音频的文字记录时会相当繁琐。尤其是出现转录本中没有的新单词时,编辑者只能重新录制相应的片段,然后与原始音频拼接。根据该方案,可以预见录音环境的变化可能会影响背景噪声,当说话者的状况变化时会对重新录制的音频和原始音频之间的响度、音调和节奏的差异,进一步导致听起来不自然。

一种有前途的基于神经网络的音频编辑技术是根据文本转录和原始音频合成语音。该系统能够根据内容作者更改的对齐转录来合成与原始音频的音调和音色相匹配的语音。因此,编辑者或许可以通过转录文本减轻他们的负担,而不是编辑原始音频。先前的工作(Moulines & Charpentier,1990;Morise et al,2016;Kawahara,2006)基于数字信号处理部分克服了直接连接不同场景下的音频所造成的韵律不匹配的问题。Morrison等人利用神经网络预测韵律信息,并结合TD-PSOLA算法降噪和去混响来实现韵律修改。尽管上述系统支持剪切、复制和粘贴操作,但他们并不能插入或者替换同一说话者的语音数据中不存在的新单词。

最近的研究应用了文本到语音(TTS)系统来合成缺失的插入词。VoCo (Jin et al .2017)使用可比较的TTS语音合成插入的单词,然后使用语音转换(VC)模型对其进行变换以拟合目标说话者。EditSpeech (Tan et al.2021)提出了部分推理和双向融合的方法来实现编辑边界的平滑过渡。CampNet(Wang等人,2022年)对基于Transformer的上下文感知神经网络进行了掩码训练,以提高编辑后的语音质量。Bai等人(2022年)提出了一种考虑对齐的声学和文本预训练方法,可以通过文本输入和声学文本对齐来直接应用于语音编辑,通过重构掩码声学信号来实现。此外,SpeechPainter(Borsos等人,2022年)利用辅助文本输入来填补语音样本中长达一秒的空白,并将其推广到未知的说话者。然而,当应用于语音编辑时,所有基于神经网络的现有方法(Jin等人,2017年;Tan等人,2021年;Wang等人,2022年;Bai等人,2022年)都进行了部分推理,而不是完整的推理,如图1(a)所示。具体来说,现有系统的输入是不需要编辑的部分的波形或梅尔频谱图。尽管编辑模块的直接输出是与编辑后的文本对应的完整波形或梅尔频谱图,但为了提高与原始音频的相似性,现有方法仅选择必须修改的部分,然后将它们插入回原始波形或梅尔频谱图中。尽管尽量保留原始音频符合我们的直觉,但这也会引发以下潜在问题:

  1. 由于部分推理人为地将编辑区域的预测声学特征插入到原始波形的相应位置,因此在编辑区域边界附近的不连续性在某种程度上几乎是不可避免的。与此同时,基于部分推理的现有语音合成系统的输出仍然是整个音频,包括上下文。因此,与整个推理相比,它不会节省时间或资源。

  2. 当文本被修改时,语调和韵律也可能相应地发生变化。也就是说,与修改后的文本相对应的音频可能不打算听起来与原始音频完全相同。一个特殊的例子是当一个一般性的疑问句被修改成陈述句时,部分推理将难以处理情绪的变化。为了解决上述提出的问题,我们提出了一种跨话语条件的连贯语音编辑系统。这基于文本的语音编辑系统应用了具有掩码训练的变分自动编码器来以高保真度重构原始波形的未修改部分。因此,整个推理可以替代部分推理,以避免因拼接而引起的不连贯性。此外,与现有的部分推理编辑系统相比,我们的方法不会消耗额外的资源。这一点可以通过图1直观地看出,在整个推理的框架比部分推理更加简洁。

    此外,为了确保生成的音频既符合原始音频特征又符合编辑后的上下文,变分自动编码器被条件化于从原始波形中提取的上下文和音频特征的语义信息。除此之外,我们在训练过程中设置了一个偏置,用于遮盖梅尔频谱图的部分段落,以使系统更加专注于需要重建的部分。在具有挑战性的数据集上的主观和客观结果显示,我们提出的模型可以确保与真实音频具有高度相似性,同时整个推理的连贯性显著优于部分推理。

    本文的其余部分组织如下:非自回归文本到语音(TTS)系统的背景和掩码训练介绍在第2节。第3节说明了我们提出的语音编辑系统。实验设置、结果和结论分别在第4、5和6节中呈现。

    2.文献综述

    2.1非自回归TTS

    现在的基于神经网络的语音合成系统可以被分为两类,包括基于注意力机制的自回归AR系统和基于持续时间的非自回归NAR系统。与AR系统不同,NAR系统可在没有内部依赖的情况下并行解码时间序列。Fastspeech2(Ren et al, 2021)是NAR TTS系统的代表,它第一次清楚的预测了持续时间和韵律信息。基于该系统 ,Li et al.提出了一个基于这个系统提出了一个跨话语条件的VAE组件,通过在声学参数、说话者信息和上下文文本特征的条件下估计每个音素的潜在韵律特征的后验概率分布,进一步提高了韵律的表现力,同时保持合成语音的高保真度。

    2.2掩码训练

    遮盖信号建模是一种表示学习方法,它学会理解和创建,即遮盖输入信号的一部分并尝试预测这些遮盖信号。这项技术已被广泛应用于各个领域,并且其有效性得到了验证(Xie等人,2022年)。在自然语言处理任务中,基于遮盖语言建模任务的预训练语言模型BERT(Devlin等人,2019年)已被证明可以广泛应用于下游任务,并在很大程度上改变了该领域。在计算机视觉领域,MAE He等人(2021年)选择了高达75%的遮盖率来向图像添加噪声,迫使编码器通过学习图像中的语义信息来重建遮盖的图像,而不仅仅是周围的像素。在语音识别方面,wav2vec2.0(Baevski等人,2020年)通过预测潜在空间中隐藏部分的语音输入并定义潜在表示的量化比较任务来完成建模任务。与BERT模型类似,语音编辑模型A3T(Bai等人,2022年)在训练期间使用音素和部分遮盖的梅尔频谱图作为输入,从而验证了遮盖训练可以高质量地重构梅尔频谱图。

    3.我们的系统

    我们提出的基于文本的语音编辑系统旨在合成与原始音频节奏一致的新音频,并通过基于上下文信息的变分自动编码器的重建能力来真正恢复音频的未修改部分。图2(a)描述了模型架构,它以从原始波形中提取的梅尔频谱图xi、当前话语ui以及ui之前和之后的l个话语作为输入。使用额外的G2P转换工具,话语ui被翻译成音素pi。按照Li等人(2022年)的方法,将2l+1个相邻话语划分为2l对,即[(ui−l,ui−l+1), · · · ,(ui+l−1,ui+l)],并使用BERT捕获跨话语信息,生成2l个BERT嵌入[b−l, · · · , bl−1]。此外,可以使用Montreal强制对齐(McAuliffe等人,2017年)来提取每个音素的开始和结束时间。接下来的部分详细介绍了我们系统的设计和偏置训练。

    3.1MASK CU-ENHANCED CVAE

    mask CU-Enhanced CVAE 模型,如图2b所示,提出是为了克服现有的语音编辑系统的问题,即不能恢复音频的未修改部分,必须将修改的部分与原始的梅尔频谱图或音频拼接在一起。在这里插入图片描述

    3.1.1基于文本的语音编辑操作的实现

    首先,一个基于文本的语音编辑系统支持删除、插入和替换等操作。不失一般性,我们可以将原始语音的原始话语转录划分为[ua, ub, uc],要修改的话语划分为[ua, ub’ , uc],其中ub’是修改后的部分,而ua和uc保持不变。相应地,由G2P翻译的音素可以表示为pi = [pa, pb, pc],原始语音的梅尔频谱图表示为xi = [xa, xb, xc]。对于i∈{a, b, c},xi包含一系列帧级梅尔频谱图。由于编辑中的替换操作可以视为先删除再添加,我们可以使用两个标志而不是三个来指示删除和添加相应内容的位置,即Flagdel和Flagadd。

    删除

    操作允许用户消除与一组特定词语相关联的语音波形段落。在删除之后要合成的目标话语是[ua, uc],其中ub是要删除的部分。通过比较编辑前后的话语,我们可以获得相应的删除指示器,进而用于指导梅尔频谱图的编辑。

    Flagdel = [0a, 1b, 0c].

    插入和替换操作

    与删除操作不同,插入或替换后合成的目标语音基于编辑后的话语[ua, ub’ , uc],其中ub’是用来替换ub的内容。需要注意的是,插入过程可以被视为ub = pb = xb = ∅ 的特殊情况。与删除操作对应,我们有添加指示器。

    Flagadd = [0a, 1b′ , 0c].

    根据Flagdel,参考梅尔频谱图[xa, xc]被送入Mask CU-Enhanced CVAE模块,因为要生成xb’。均值µ和方差σ从两个一维卷积中学习得到。根据Flagadd,0和1被添加到µ和σ的相应位置,即µˆ = [µa, 0b’ , µc] 和σˆ = [σa, 1b’ ,σc]。这允许编辑区域生成的语音从话语特定的先验中采样,而没有修改的区域的音频则从真实音频和话语特定的先验中采样。在训练过程中,实际上无法获取编辑后的真实音频,所以我们只能遮盖某些音频段并恢复相同的内容来模拟编辑场景,即b’ = b。

    3.1.2连贯性和韵律性的增强

    我们引入了更多的机制,以确保掩模CU-CVAE模块的输出可以进一步合成连贯和上下文音频。为了使编辑边界更加流畅,µ′和σ′进一步由µ′和σ′进行一维卷积得到。此时,模块可以从估计的先验中采样,并可以重新参数化为在这里插入图片描述

    其中,⊕ 和 ⊗ 是逐元素的加法和乘法操作,而 zprior 是从已学习的话语特定先验中采样得到,与Li等人(2022年)的方法相对应。重参数化如下所示:

    在这里插入图片描述

    其中,µprior和σprior是从话语特定先验模块中学习得到的,ϵ是从标准高斯分布 N(0, 1) 中采样得到的。Hi 是CU-Embedding的输出,如图2©所示。CU-Embedding模块将跨话语信息编码成一系列混合嵌入,使用预训练的BERT来捕获围绕当前话语ui的第一个和最后l个话语的上下文信息[b−l, · · · , bl−1],使用Transformer编码器来编码音素序列,并使用多头注意力层来捕获上下文信息。此外,一个额外的持续时间预测器以Hi作为输入,预测每个音素的持续时间Di。另外,为了有效利用从原始音频中提取的持续时间信息,类似于Tan等人(2021年)和Bai等人(2022年)的方法,我们通过将编辑区域的音素持续时间与未编辑区域的原始音频和预测音频持续时间之比相乘来进一步调整音素持续时间,得到D’i。持续时间预测器和调整器之后会将估计的持续时间四舍五入。

    因此,ELBO目标可以表示为:
    在这里插入图片描述

​ 在这个公式中,为了简化,省略了表示当前实例的索引i。θ是解码器模块的参数,ϕ1、ϕ2是mask CU-CVAE编码器ϕ的两个部分,用于从zprior、x和D’i、H中获取z,β1、β2是两个平衡常数,p(znprior)被选择为标准高斯分布 N(0, 1)。同时,zn和znprior表示第n个音素的潜在表示,t = a + b’ + c是音素序列的长度。

3.2偏置训练

为了重建每个遮罩音素的给定转录文本的波形,声学模型通常采用的损失函数是重建的梅尔频谱图与原始梅尔频谱图之间的平均绝对误差(MAE),大多数情况下只在遮罩部分计算损失,类似于BERT(Devlin等人,2019)。在训练过程中,输入的参考梅尔频谱图仅包括未遮罩的部分。为了使系统更加关注遮罩部分,增加这个区域的损失权重是合理的。

然而,尽管在训练过程中,我们只能通过重建梅尔频谱图来模拟音频编辑操作,但在推理过程中,目的是合成具有自然连贯性的音频,其节奏符合修改后的文本上下文。因此,在语音编辑的情况下,将未遮罩区域的损失权重设置为零是不合适的。

通过这种方式,我们希望能够平衡接近原始音频和新修改的转录文本上下文两个目标。在实验中,我们将遮罩部分和未遮罩部分的损失比率设置为λ=1.5。

在这里插入图片描述

随后的实验结果还表明,与其他权重设置相比,增加对遮罩部分重建的梅尔频谱图损失函数的权重可以使合成的声音更加自然和连贯。

4实验设置

4.1数据集

我们在一个多说话人的数据集LibriTTS上进行了实验。使用train-clean-100和train-clean- 360两个子集,包含来自1151位演讲者(553位女性演讲者和598位男性演讲者)的245小时英语有声读物。该数据集(Zen et al ., 2019)包含可以从中提取上下文信息的相邻句子。我们分别从数据集中随机选择90%、5%、5%的数据作为训练集、有效集和测试集。所有音频片段在22.04 kHz重新采样。

4.2配置细节

本文提出的Mask CU-CVAE TTS系统基于FastSpeech 2的框架。在cu嵌入模块中,使用Transformer学习当前的话语表示,其中音素嵌入的维度和自注意的大小都设置为256。

同时,我们使用“BERT BASE”配置,包括12个Transformer模块;每个积木有12个注意力层;隐藏的尺寸是768。此外,在整个TTS系统训练过程中,BERT模型和相关嵌入都是固定的。此外,从256个模糊嵌入层学习到的不同扬声器的信息被添加到Transformer输出中。

在Mask cu增强的CVAE模块中,使用4个核大小为1的1d -卷积(1D-Conv)层来预测2-dim潜在特征的均值和方差。同时,增加上采样层,使预测的序列长度与编辑后的音素序列长度一致,也提高了合成音频的自然度。我们以单词代替音素为单位,随机选择需要屏蔽的部分,忠实地再现实际的编辑场景。此外,为了平衡系统学习和预测音频信息的能力,我们将屏蔽率设置为50%,Bai等人(2022)已证明该屏蔽率是有效的。

然后,通过线性层将采样的潜在特征转换为256-dim向量。FastSpeech 2的持续时间预测器中的长度调节器由两个具有ReLU激活的1D卷积块组成,然后是层归一化和一个额外的线性层来预测每个音素的长度,该调节器被调整为接受cu嵌入模块的输出。每个卷积块由一个具有ReLU激活的1D-Conv网络组成,然后是层归一化和一个dropout层。解码器使用四个前馈变压器块将隐藏序列转换为80个暗淡的梅尔谱图序列。

最后,声码器HifiGAN (Kong et al, 2020)在开源的预训练版本“UNIVERSAL V1”上进行1200步微调,以从预测的梅尔谱图合成波形。

4.3评价指标

为了衡量我们提出的方法的性能,进行了主观和客观的测试。首先,20名志愿者参与了一项针对15段合成音频的主观听力测试,他们被要求使用5级平均意见评分(MOS)评估语音样本的自然度和相似性水平。MOS结果提供95%置信区间和p值。

为了客观评价,我们使用F0帧误差(FFE) (Chu & Alwan, 2009)和mel-倒谱失真(MCD) (Kubichek, 1993)来衡量不同VAEs和不同损失权值设置的重建性能。结合粗Pitch Error (GPE)和voice Decision Error (VDE),使用FFE来评估F0航迹重建的准确性。在细节,在这里插入图片描述

在这个文本中,NU→V 和 NV→U 分别表示被分类为有声/无声帧的无声帧和有声帧的数量,N 表示话语中的帧数,NF0E 表示帧数。在这里插入图片描述

此外,MCD(Mel Cepstral Distortion)用于评估音色失真,是从我们的实验中的前13个MFCC(Mel频率倒谱系数)计算得出的。在这里插入图片描述

其中,y和yˆ分别是原始和重建波形的MFCC(Mel频率倒谱系数)。这个系数用于将MCD的单位转换为分贝。MCD越小,合成和自然梅尔频谱序列之间的接近程度就越高,接近自然语音。

此外,还报告了来自自动语音识别模型的词错误率(WER)。与自然性相辅相成,WER度量了合成和真实语音之间的可理解度和一致性程度。本研究中使用的基于注意力的编码器-解码器模型是在Librispeech 960小时数据上训练的,并已开源。

5.结果

本节介绍了我们提出的语音编辑系统的一系列实验。首先,通过MOS(Mean Opinion Score)和重建性能评估了通过部分推理和整体推理生成的EditSpeech(Tan等人,2021年)和我们系统生成的合成音频的自然度和相似度。接下来,进行了一项消融研究,逐步展示了我们系统中上下文信息的限制对系统的影响,基于MOS和重建性能。最后,还研究了偏置训练程度对重建性能的影响。我们的音频示例可以在演示页面上找到。

5.1部分推理与全部推理

为了研究部分推理与整体推理的性能,对以下系统进行了实验:1)GT,真实音频;2)GT(Mel+HifiGAN),首先将真实音频转换为真实梅尔频谱图,然后使用HifiGAN声码器将其转换回音频;3)Wave cut,手动从生成的波形中剪切修改区域,并将其插入回原始波形;4)EditSpeech(Tan等人,2021年),使用部分推理和双向融合来改善边界附近的语调;5)我们的系统(Mel cut),从生成的梅尔频谱图中剪切修改区域,并使用强制对齐器将其插入回原始梅尔频谱图;6)我们的系统,从待编辑的完整句子重新生成完整的梅尔频谱图,然后使用HifiGAN声码器生成完整的波形;

请注意,由于真实音频不包括编辑后的音频,因此使用GT和GT(Mel+HifiGAN)来评估重建性能。对于编辑操作,我们手动拼接音频波形,而“Wave cut”的MOS相似性分数充当上限指标。

根据表1中显示的自然度的MOS分数,我们的整体推理模型在所有编辑操作中均获得了最高分数。替代操作的差距显而易见,因为基于部分推理的语音编辑模型难以处理语调转换。删除中的“Mel cut”的分数相对较低,因为“Mel cut”高度依赖于MFA的准确性。特别是在删除短词时,其性能可能不如基于波形的手动精细删除。由于涉及插入新单词,因此“Wave cut”在插入和替换中的自然度MOS分数相对较低,原始音频和生成的音频之间存在不协调。

相似性的MOS分数表明,我们的整体推理系统的性能接近于部分推理的“Mel cut”,并在插入和替换方面超过了EditSpeech。它还接近于“Wave cut”,后者被用作相似性的上限指标,最大差异约为0.2。在这里插入图片描述

表2中的p值表明,我们的整体推理模型的自然度明显优于“Mel cut”和“Wave cut”,而整体推理和这两种部分推理方法之间在相似性上没有显著差异。唯一的例外是在删除的情况下,我们的整体推理模型的自然度与“Wave cut”的自然度没有显著差异。表3还展示了我们的遮罩CU增强的CVAE模块重建梅尔频谱图的能力。由于部分推理直接复制了未编辑区域的真实梅尔频谱图,因此部分推理在相似性和MCD(梅尔频谱失真)上具有更好的重建性能是合理的。然而,我们的整体推理系统仍然在FFE和WER上超过了EditSpeech。在这里插入图片描述

5.2消融实验

在这一部分中,我们研究了在我们的系统中使用不同VAE的性能影响。我们比较了以下系统中合成音频的重建性能和MOS分数:1-2)与上述实验设置相同;3)Baseline1,使用细粒度的VAE代替CU-CVAE;4)Baseline2,使用没有上下文嵌入的CVAE,即l = 0;5)Baseline2,使用带有2个相邻话语的CU-CVAE,即l = 2;6)我们的系统,使用带有5个相邻话语的CU-CVAE,即l = 5。

如表4和表5所示,当连续添加编辑文本的语义限制和上下文嵌入时,编辑和重建波形的自然度的MOS分数以及重建性能的客观分数逐渐提高。此外,表4中的重建度量表明,使用更多的跨话语可以提高重建能力。这些结果表明,CU嵌入和遮罩CU-CVAE模块在生成更连贯音频方面发挥了关键作用。在这里插入图片描述

5.3训练偏差程度

本节的消融研究是基于重建性能进行的。为了调查对遮蔽的梅尔频谱图的不同强度的关注对系统的影响,我们的系统使用了比率=1:1、1:1.5、1:2、1:5和0:1进行了评估,其中比率=1:1表示使用了重建的梅尔频谱图的常规损失函数,将遮蔽和未遮蔽区域视为相等,而比率=0:1则应用于现有的语音编辑系统,它们都使用了部分推理,只关注遮蔽的区域。这个实验的目的是找到上述两种情况的参数,即常见的TTS整体推理和现有语音编辑系统的部分推理,以便生成的编辑后音频既能保持连贯,又能具有原始音频的语调特征。在这里插入图片描述

6 结论

在本文中,我们提出了一种跨话语条件的一致性语音编辑系统,这是第一个能够完全生成与编辑后文本对应的音频的基于文本的语音编辑系统。我们将一个受到说话者信息、上下文和音频先验条件的变分自动编码器集成到高质量的文本到语音模型中,以确保音频的恢复和生成质量。实验表明,我们提出的系统具有高度保真地重建原始音频的能力,合成语音的语调符合编辑后文本的语境。

7.道德声明

本文中的实验是在假设模型的用户是目标说话者并且已经得到说话者的批准的前提下进行的。然而,当将模型推广到未知的说话者时,相关组件应该伴随着语音编辑模型,包括确保说话者同意执行修改的协议以及检测编辑语音的系统。

统具有高度保真地重建原始音频的能力,合成语音的语调符合编辑后文本的语境。

7.道德声明

本文中的实验是在假设模型的用户是目标说话者并且已经得到说话者的批准的前提下进行的。然而,当将模型推广到未知的说话者时,相关组件应该伴随着语音编辑模型,包括确保说话者同意执行修改的协议以及检测编辑语音的系统。

原文地址:https://openreview.net/forum?id=O_er9uNktN
(ICLR2023,个人翻译稿,不用做任何商业用途,如有侵权,请联系作者)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值