suskil-CSDN博客

原创 CALM：用于富有表现力的文本到语音合成的对比跨模态说话风格建模

为了进一步改善合成语音的说话风格，当前的文本到语音（TTS）合成系统通常使用参考语音来风格化其输出，而不仅仅是输入文本。这些参考语音是通过耗费资源的人工选择获得的，或者是通过语义特征选择的。然而，语义特征不仅包含与风格相关的信息，还包含与风格无关的信息。文本中与说话风格无关的信息可能会干扰参考音频选择并导致不正确的说话风格。为了改进参考选择，我们提出了。CALM 通过对比学习优化说话风格嵌入和提取的 STF 之间的相关性。

2024-03-27 18:14:55 901

原创 CUDA与pytorch问题小结

原因：pytorch与CUDA版本不匹配解决方案：参考https://download.pytorch.org/whl/torch_stable.html ，找到自己对应的版本。例如，cu117代表CUDA11.7，cp39代表python3.9。

2024-03-06 16:24:10 193 1

原创 Zero-Shot Unsupervised and Text-Based Audio Editing Using DDPM Inversion

论文地址： https://arxiv.org/abs/2402.10009该论文探索了两种音频信号的零样本编辑技术，这些技术利用了预训练扩散模型上的DDPM反演。**第一种技术源自图像领域，允许基于文本进行编辑。第二种技术是一种新颖的方法，可以在没有监督的情况下发现语义上有意义的编辑方向。**当应用于音乐信号时，这种方法展示了一系列音乐上有趣的修改，从控制特定乐器的参与到对旋律的即兴演奏。在本文中，我们探索了两种使用预训练音频 DDM 进行零样本音频编辑的方法，。

2024-02-29 17:29:41 747

原创 GST：端到端语音合成中的无监督风格建模、控制和传输

这篇论文介绍了一种名为“全局风格标记”（Global Style Tokens，GSTs）的方法，在Tacotron这一最先进的端到端语音合成系统中进行联合训练。这些嵌入表示没有经过明确的标注，但却学会了建模各种各样的声学表现。GSTs带来了一系列重要的结果。它们生成的软解释性“标签”可以用于以新颖的方式控制合成，例如独立于文本内容地改变语速和说话风格。它们还可以用于风格转移，即在整个长篇文本语料库中复制单个音频剪辑的说话风格。

2024-02-03 20:59:52 728 1

原创 GenerSpeech：走向可推广的域外文本到语音的风格迁移

该方法通过在包含各种语音的更大数据集上进行预训练，以扩展数据分布，从而提高TTS（文本到语音）模型的鲁棒性。然而，这种数据需求较大的方法需要许多音频样本和相应的文本转录，通常成本较高，甚至有时是不可能的。另一种方法是通过在有多样声学条件的有限适应数据上进行微调，来适应新的语音。一些工作采用元学习的方法，以适应在训练过程中未曾见过的新说话者。然而，风格适应依赖于一个强假设，即目标语音可以用于模型的适应，而这在实践中并不总是成立。因此，如何在零样本的情况下进行领域外语音合成仍然是一个待解决的问题。

2024-01-14 17:47:17 987 1

原创 LAURAGPT：使用 GPT 聆听、注意、理解和重新生成音频

阿里发布的语音大模型，已经开源https://github.com/alibaba-damo-academy/FunCodec/tree/master/egs/LibriTTS/text2speech_laura感兴趣的可以研究一下。

2024-01-10 22:01:27 1313

原创【Emotion Recognition with wav2vec2 base on IEMOCAP】项目报错解决方案

下载后，放到wav2vec2-IEMOCAP文件夹下。该错误是缺少wav2vec2-base模型，在。中下载后放到wav2vec2-base文件里。该错误是由于缺少项目预训练模型，在。

2024-01-08 20:44:26 432

翻译 CROSS-UTTERANCE CONDITIONED COHERENT SPEECH EDITING VIA BIASED TRAINING AND ENTIRE INFERENCE

基于文本的语音编辑系统被开发用来让用户对语音进行选择、剪切、复制和粘贴操作。现存性能最佳的基于神经网络编辑系统无一例外的只进行部分推理，即仅仅生成需要被插入或替换的新单词。这种方式通常会导致编辑后的部分韵律与前后不一致，并且无法处理语调的变化。为了解决这些问题，我们提出了跨话语条件连贯语音编辑系统，该系统首次提出了完整推理。受益于跨话语条件变分自动编码器，我们提出的系统可以通过利用说话者的信息、文本、声学特征和未剪辑的原始声音的梅尔频谱。此外，我们应用偏置训练将更多的注意力集中到需要重建的部分。

2023-09-18 09:20:40 82

weixin_46433387的博客