Google,微软,科大讯飞的语音识别引擎对比

本文对比了Google、微软和科大讯飞的语音识别引擎,详细探讨了它们在错误标准、客户端类型以及支持的语言和最大返回识别结果数量等方面的差异。通过对Microsoft Speech SDK和iFLY Mobile Speech Platform 2.0的分析,揭示了各公司在语音识别技术上的特点和优势。
摘要由CSDN通过智能技术生成
Google 提供了一个在线语音识别的 API 接口,通过该 API 可以进行中文、英文等语言的识别。
 API 地址: http://www.google.com/speech-api/v1/recognize? xjerr =1& client = chromium& lang = zh-CN& maxresults =1
参数解释

 xjerr:错误标准

 client: 客户端类型

 lang:待识别语言类型,en-US是英文,中文为zh-CN

 maxresults最大返回识别结果数量

识别基本流程:
从音频输入设备获取原始音频并编码或直接调用音频文件。
将音频 POST 至接口地址。
分析处理返回的 JSON 并得出结果。
请求接口
地址:如前
请求方式: http post
请求数据:编码后的音频数据
音频编码格式: wav speex flac
音频采样频率: 8000Hz 11025Hz 16000Hz 22050Hz 24000Hz 32000Hz 44100Hz 48000Hz
主要优点
语音识别引擎庞大,识别精度很高,适用于文本语音识别。提供多国语言的语音识别。
任何平台都可以进行访问,容易使用。
主要缺点
API 未开放,未能获知具体开发细节。
识别引擎位于服务器端,识别的速度和网络质量有关,识别速度较慢。
待识别音频的格式、大小、时长的限制。
 
 

MicrosoftSpeech SDK

Microsoft Speech SDK 是微软公司提供在 Windows 平台上开发语音识别和语音合成应用程序的开发包,简称为 SAPI ,内含 SR Speech Recognition )和 <
  • 2
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 31
    评论
评论 31
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值