目前市面上语音识别有两种方式,分别是实时流式语音识别和音频文件识别。下面重点介绍音频文件识别:
1、音频文件识别的定义:
音频文件识别是指将声波录制成音频文件,用这个音频文件去识别转换成文字的过程。
2、音频文件识别连接的方式:
目前音频文件识别连接的方式为http连接;
3、音频文件识别支持的音频文件格式:
在语音音频文件识别中,目前市面长能够支持识别的音频文件格式受几个参数的影响:
①音频文件格式:pcm,wav,ogg_speex,ogg_opus,mp3,opus;
②采样位宽:16bits;或者 sample bytes: 2 Bytes;
③声道:单声道,或者channel: 1;
④采样率:16,或者 sample rate: 16000;
备注:1Byte=8bit
4、音频文件识别中查看音频格式的工具:
①开发使用音频文件转换工具FFmpeg,目前市场上的音频格式复杂多样,但是系统支持的音频只有上边的几种,因此就涉及到音频格式转换的问题,常用的音频文件转换的工具有FFmpeg,国外软件,开源的,能够将不同格式、不同采样率、不同比特率、不同声道的音频转换成系统能够支持的格式,再去识别。FFmpe