百度PaddleSpeech

PaddleSpeech是百度飞浆的开源语音项目,包含TTS、ASR、VPR等模块。ASR离线词错率28.3%,流式29.9%,适用于普通话场景。TTS功能可调整语速、音调,但可能有顿挫感。适合初步使用,复杂场景需微调。
摘要由CSDN通过智能技术生成

一:PaddleSpeech介绍

PaddleSpeech是百度飞浆开源深度学习平台的其中一个项目,是基于飞桨 PaddlePaddle 语音方向的开源模型库,用于语音和音频中的各种关键任务的开发,包含大量基于深度学习前沿和有影响力的模型。

飞浆官网:https://www.paddlepaddle.org.cn/
github地址:https://github.com/PaddlePaddle/PaddleSpeech
相关介绍:https://mp.weixin.qq.com/s/Y9OvOuDKUxHCAPMHsVh-tg

二:PaddleSpeech主要模块

TTS

基于FastSpeech2进行改造,介绍文档:https://www.jiqizhixin.com/articles/2020-06-23-13
相较于端到端非流式合成, PP-TTS 流式合成的平均响应时延降低了97.4%,即使在普通的 CPU 笔记本上也能够实时响应。

ASR:

基于WenetSpeech上万小时训练的语音识别系统:WenetSpeech是从 YouTube 和 Podcast 收集的 10000 多个小时的多域转录普通话语料库。采用光学字符识别 (OCR) 和自动语音识别 (ASR) 技术分别标记每个 YouTube 和 Podcast 录音(也就是说这批数据并不是人工标注,而是伪标注,当然应该已经做了一定的筛选策略)

VPR:开源全链路声纹提取与检索系统

声纹特征作为

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值