英文数字语音识别

最新推荐文章于 2024-07-15 13:57:42 发布

侯增涛

最新推荐文章于 2024-07-15 13:57:42 发布

阅读量6.6k

点赞数 2

文章标签：语音识别单一数字英文转阿拉伯数字输出

本文链接：https://blog.csdn.net/weixin_44345862/article/details/86887448

版权

例子代码链接：https://github.com/pannous/tensorflow-speech-recognition
我在百度网盘备份的链接：https://pan.baidu.com/s/1dcphCTog9TTypcPhZ1xQXQ
提取码：1234
复制这段内容后打开百度网盘手机App，操作更方便哦
里面不但有程序代码还有数据集为：spoken_numbers_pcm.tar和spoken_numbers_spectros_64x64.tar，位于主文件夹，如下图：
在这里插入图片描述
这个数据集包含许多人阅读的0–9的英文的音频。分为男生和女声，一段音频中只有一个数字对应的英文的声音。
直接在主文件夹中建立data文件夹，并把这两个数据集拷贝到data文件夹中，解压并保留tar文件，程序直接读的就是tar文件，但程序中可能应付不了tar文件，所以也要解压一份备给傻冒程序。
在这里插入图片描述
此程序用的是前面那个数据集，后面的哪个干嘛用的没发现。然后运行number_classifier_tflearn.py，根据程序要求，如下图：

拷贝spoken_numbers_pcm.tar文件夹中的一个5_Vicki_260.wav声音文件到主文件夹speech下，结果如下：
在这里插入图片描述
成功识别出所说的英文数字是5。运行的很快，也不用加载模型文件，直接训练直接用的。