例子代码链接:https://github.com/pannous/tensorflow-speech-recognition
我在百度网盘备份的链接:https://pan.baidu.com/s/1dcphCTog9TTypcPhZ1xQXQ
提取码:1234
复制这段内容后打开百度网盘手机App,操作更方便哦
里面不但有程序代码还有数据集为:spoken_numbers_pcm.tar和spoken_numbers_spectros_64x64.tar,位于主文件夹,如下图:
这个数据集包含许多人阅读的0–9的英文的音频。分为男生和女声,一段音频中只有一个数字对应的英文的声音。
直接在主文件夹中建立data文件夹,并把这两个数据集拷贝到data文件夹中,解压并保留tar文件,程序直接读的就是tar文件,但程序中可能应付不了tar文件,所以也要解压一份备给傻冒程序。
此程序用的是前面那个数据集,后面的哪个干嘛用的没发现。然后运行number_classifier_tflearn.py,根据程序要求,如下图:
拷贝spoken_numbers_pcm.tar文件夹中的一个5_Vicki_260.wav声音文件到主文件夹speech下,结果如下:
成功识别出所说的英文数字是5。运行的很快,也不用加载模型文件,直接训练直接用的。
英文数字语音识别
最新推荐文章于 2024-07-15 13:57:42 发布