—
Google
提供了一个在线语音识别的
API
接口,通过该
API
可以进行中文、英文等语言的识别。
API
地址:
http://www.google.com/speech-api/v1/recognize?
xjerr
=1&
client
=
chromium&
lang
=
zh-CN&
maxresults
=1
—
参数解释
xjerr:错误标准
client: 客户端类型
lang:待识别语言类型,en-US是英文,中文为zh-CN,
maxresults:最大返回识别结果数量
—
识别基本流程:
◦
从音频输入设备获取原始音频并编码或直接调用音频文件。
◦
将音频
POST
至接口地址。
◦
分析处理返回的
JSON
并得出结果。
—
请求接口
◦
地址:如前
◦
请求方式:
http post
◦
请求数据:编码后的音频数据
◦
音频编码格式:
wav
、
speex
或
flac
。
◦
音频采样频率:
8000Hz
、
11025Hz
、
16000Hz
、
22050Hz
、
24000Hz
、
32000Hz
、
44100Hz
、
48000Hz
—
主要优点
◦
语音识别引擎庞大,识别精度很高,适用于文本语音识别。提供多国语言的语音识别。
◦
任何平台都可以进行访问,容易使用。
—
主要缺点
◦
API
未开放,未能获知具体开发细节。
◦
识别引擎位于服务器端,识别的速度和网络质量有关,识别速度较慢。
◦
待识别音频的格式、大小、时长的限制。
MicrosoftSpeech SDK
—
Microsoft Speech SDK
是微软公司提供在
Windows
平台上开发语音识别和语音合成应用程序的开发包,简称为
SAPI
,内含
SR
(
Speech Recognition
)和 <