个人翻译稿
文章平均质量分 92
suskil
这个作者很懒,什么都没留下…
展开
-
CALM:用于富有表现力的文本到语音合成的对比跨模态说话风格建模
为了进一步改善合成语音的说话风格,当前的文本到语音(TTS)合成系统通常使用参考语音来风格化其输出,而不仅仅是输入文本。这些参考语音是通过耗费资源的人工选择获得的,或者是通过语义特征选择的。然而,语义特征不仅包含与风格相关的信息,还包含与风格无关的信息。文本中与说话风格无关的信息可能会干扰参考音频选择并导致不正确的说话风格。为了改进参考选择,我们提出了。CALM 通过对比学习优化说话风格嵌入和提取的 STF 之间的相关性。原创 2024-03-27 18:14:55 · 901 阅读 · 0 评论 -
CROSS-UTTERANCE CONDITIONED COHERENT SPEECH EDITING VIA BIASED TRAINING AND ENTIRE INFERENCE
基于文本的语音编辑系统被开发用来让用户对语音进行选择、剪切、复制和粘贴操作。现存性能最佳的 基于神经网络编辑系统 无一例外的只进行部分推理,即仅仅生成需要被插入或替换的新单词。这种方式通常会导致编辑后的部分韵律与前后不一致,并且无法处理语调的变化。为了解决这些问题,我们提出了跨话语条件连贯语音编辑系统,该系统首次提出了完整推理。受益于跨话语条件变分自动编码器,我们提出的系统可以通过利用说话者的信息、文本、声学特征和未剪辑的原始声音的梅尔频谱。此外,我们应用偏置训练将更多的注意力集中到需要重建的部分。翻译 2023-09-18 09:20:40 · 82 阅读 · 0 评论