关于百度PaddleSpeech的初步研究
一:PaddleSpeech介绍
PaddleSpeech是百度飞浆开源深度学习平台的其中一个项目,是基于飞桨 PaddlePaddle 语音方向的开源模型库,用于语音和音频中的各种关键任务的开发,包含大量基于深度学习前沿和有影响力的模型。
飞浆官网:https://www.paddlepaddle.org.cn/
github地址:https://github.com/PaddlePaddle/PaddleSpeech
相关介绍:https://mp.weixin.qq.com/s/Y9OvOuDKUxHCAPMHsVh-tg
二:PaddleSpeech主要模块
TTS
基于FastSpeech2进行改造,介绍文档:https://www.jiqizhixin.com/articles/2020-06-23-13
相较于端到端非流式合成, PP-TTS 流式合成的平均响应时延降低了97.4%,即使在普通的 CPU 笔记本上也能够实时响应。
ASR:
基于WenetSpeech上万小时训练的语音识别系统:WenetSpeech是从 YouTube 和 Podcast 收集的 10000 多个小时的多域转录普通话语料库。采用光学字符识别 (OCR) 和自动语音识别 (ASR) 技术分别标记每个 YouTube 和 Podcast 录音(也就是说这批数据并不是人工标注,而是伪标注,当然应该已经做了一定的筛选策略)
VPR:开源全链路声纹提取与检索系统
声纹特征作为