语音识别开源项目汇总

最新推荐文章于 2024-08-26 22:38:35 发布

zx超

最新推荐文章于 2024-08-26 22:38:35 发布

阅读量3.5k

点赞数 1

文章标签：语音识别

原文链接：https://blog.csdn.net/u013498583/article/details/113752657

版权

语音识别技术随着神经网络的兴起和发展，准确率得到了很大的改善，在很多场景下都可以逐步商用落地了，很多公司也组建了语音团队。其实在github上，语音识别相关的项目也是层出不穷，其中的一些项目的质量很高，如果好好借鉴学习的话可以避免从头造轮子，毕竟造轮子也不是那么容易的 = =！。在这里，对一些比较流行的项目做一些汇总和简单介绍。

ASR
1.1 kaldi

https://github.com/kaldi-asr/kaldi

最流行的语音识别工具包，不过比较古老了，在神经网络时代有些落后，目前作者Daniel Povey 在小米在major update，期待下一代kaldi

1.2 espnet
https://github.com/espnet/espnet

espnet是基于pytorch的端到端语音工具包，不仅包括ASR还包括了TTS。espnet使用kaldi进行特征提取等，espnet2不再依赖kaldi，不过espnet2下的recipe还不是很多。espnet和kaldi一样有很多egs，并且包括了各种主流的端到端方法，比如CTC，RNN-T, Transformer等。是学习试验端到端方法很好的工具。

1.3 其他
1.3.1 wenet
https://github.com/mobvoi/wenet

出门问问开源的ASR toolkit，实现了 Unified Two Pass (U2) 流式和非流式端到端模型，基于pytorch，可以同时部署在服务器和端上。有aishell-1的例子，中文语音识别可以学习借鉴

1.3.2 wav2letter
https://github.com/facebookresearch/wav2letter

C++实现的语音识别框架，运行效率高

1.3.3 pytorch-kaldi
https://github.com/mravanelli/pytorch-kaldi

用pytorch代替了kaldi中的神经网络部分，特征提取和解码等还是使用kaldi，没在维护了

1.3.4 tf-seq2seq
https://github.com/google/seq2seq

tensorflow实现的一些端到端模型，没在维护了

1.3.5 speech-transformer
https://github.com/kaituoxu/Speech-Transformer

pytorch实现的transformer中文语音识别（aishell）

KWS
2.1 ARM-KWS
https://github.com/ARM-software/ML-KWS-for-MCU

arm开源的在他们mcu上的kws，英文识别，输出的单元整个英文WORD

2.2 kws（你好小瓜）
https://github.com/robin1001/kws_on_android

西工大张彬彬开源的中文唤醒(你好小瓜)，中文语音唤醒可以借鉴，采用fbank + dnn + fst的方案。

关注

1
点赞
踩
40

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

zx超 CSDN认证博客专家 CSDN认证企业博客

码龄5年

67: 原创

24万+: 周排名

2万+: 总排名

17万+: 访问

: 等级

1195: 积分

110: 粉丝

220: 获赞

133: 评论

727: 收藏

私信

关注

热门文章

分类专栏

最新评论

AI-疑难杂题
CSDN-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
VLLM本地部署Qwen2-7B-Instruce
zx超: 可以使用qwen的swift部署
VLLM本地部署Qwen2-7B-Instruce
qq_34964218: 大佬你好，想请教一下如何在无GPU的Linux上通过vllm部署qwen2模型啊，跪谢了
python的logger日志
北风之神c: 总结的很全面，写得赞，博主用心了。此国产日志 https://nb-log-doc.readthedocs.io/zh_CN/latest 使用原生 loggng封装，兼容性和替换性100%,大幅简化logging的使用。 1、日志能根据级别能够自动变彩色。 1 2、print自动变彩色。 3、日志和print在pycahrm控制台的输出都自动可以点击跳转到文件和行号。 4、多进程日志切割安全，文件日志写入性能高。 5、入参简单，能一键自动记录到多种地方。 6、 nb_log 兼容包含loguru色彩模式,loguru只是nb_log的子集之一. 相比 loguru 有10胜。 pip install nb_log 。
阿里-paraformer论文详解
2401_82881085: funasr的特征提取就是funasr的特征提取嘛老师

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。