百度PaddleSpeech

yizhao2019

已于 2023-07-24 15:45:54 修改

阅读量939

点赞数

分类专栏：语音处理文章标签：人工智能 python

于 2023-07-24 15:44:32 首次发布

本文链接：https://blog.csdn.net/yizhao2019/article/details/131897667

版权

PaddleSpeech是百度飞浆的开源语音项目，包含TTS、ASR、VPR等模块。ASR离线词错率28.3%，流式29.9%，适用于普通话场景。TTS功能可调整语速、音调，但可能有顿挫感。适合初步使用，复杂场景需微调。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一：PaddleSpeech介绍

PaddleSpeech是百度飞浆开源深度学习平台的其中一个项目，是基于飞桨 PaddlePaddle 语音方向的开源模型库，用于语音和音频中的各种关键任务的开发，包含大量基于深度学习前沿和有影响力的模型。

飞浆官网：https://www.paddlepaddle.org.cn/
github地址：https://github.com/PaddlePaddle/PaddleSpeech
相关介绍：https://mp.weixin.qq.com/s/Y9OvOuDKUxHCAPMHsVh-tg

二：PaddleSpeech主要模块

TTS

基于FastSpeech2进行改造，介绍文档：https://www.jiqizhixin.com/articles/2020-06-23-13
相较于端到端非流式合成， PP-TTS 流式合成的平均响应时延降低了97.4%，即使在普通的 CPU 笔记本上也能够实时响应。

ASR：

基于WenetSpeech上万小时训练的语音识别系统：WenetSpeech是从 YouTube 和 Podcast 收集的 10000 多个小时的多域转录普通话语料库。采用光学字符识别 (OCR) 和自动语音识别 (ASR) 技术分别标记每个 YouTube 和 Podcast 录音（也就是说这批数据并不是人工标注，而是伪标注，当然应该已经做了一定的筛选策略）