音频文件语音转文字TXT的尝试，百度云、微信、fast-Whisper STT开源模型github，AI还是太弱智

最新推荐文章于 2024-10-04 22:36:54 发布

wxlfreewind

最新推荐文章于 2024-10-04 22:36:54 发布

阅读量331

点赞数 4

文章标签： whisper 人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wxlfreewind/article/details/142688935

版权

有一个英语电影音频文件，想转成文字。老外语速非常非常快且磁带录的不太清晰，所以非常难听懂。

Vovsoft Speech to Text Converter，免费的引擎库识别不行，根本没法看。收费的引擎库，有好多个，无法试了，因为(IBM Cloud, Microsoft Azure, and OpenAI may require a valid credit card for registration and may not be available in some countries such as China and Taiwan.) 无法在中国使用。

用了百度云语音识别，有一个“音频文件转写”，有英语，只支持文件URL形式，试了，非常不准，没法看。

再试“短语音识别”（标准版），有英语，支持音频文件上传形式，试了，稍好些，但达不到要求，只能看个雏形。

还有一个“短语音识别极速版”说识别率更好，但只支持中文，没办法。

再试微信，微信只支持实时录入，用 + 功能里面的“语音输入”，这个是实时转文字功能，可以选英语，然后“按住说话”，不能录太长，只能录个几秒，试了下，比百度准多了！算是基本可以看了。

再试网友jianchang512的github的fast-Whisper STT开源模型，《开源免费软件推荐：搭建本地网络内的语音转文字工程》，（https://post.smzdm.com/p/akl563qk/或https://github.com/jianchang512/stt），用medium.en引擎库的话算是很准了！可以用这个！但引擎库太大且需要的算力太大了，要好久的时间。

OpenAI可能挺强的，没再去试了。

另外，分成不同的人、且按单句来识别，识别准确率会更高些。

如果背景声太强，就很难了，比如劲爆音乐中的快速歌词，可能一个单词都识别不出来。

如同OCR一样，需要固定场景、人物、声音大小、语速要固定要慢且需要清晰再清晰、把其它的干扰降到最低。

从文字OCR识别、语音识别来看，AI还是如同弱智人，达不到正常人的识别能力，要有很清晰的场景才能识别出来。

比如百度的OCR就细分了非常多的识别场景要分开不同的识别程序，微信的中文OCR功能倒是还可以，但遇到多种语言混合的就不行了。

语音识别就更难了。

所以还需要10倍的运算能力提升，可能AI才能达到勉强的水平，可能再等个几十年吧。

未来外语语种翻译专业人才还是不可或缺的。

关注

4
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。