谷歌ASR识别的最佳做法

本文档提供了关于如何优化语音数据以供Google Speech-to-Text API处理的最佳实践。建议包括保持16000 Hz的采样率,使用100毫秒的帧大小,避免音频预处理以及在请求配置中准确描述音频属性以提高识别效率和准确性。
摘要由CSDN通过智能技术生成

最佳做法

本文档包含有关如何将语音数据提供给 Speech-to-Text API 的建议。这些准则旨在提高该服务的效率和准确性并实现合理的响应速度。如果发送到该服务的数据在本文档中所述的参数范围内,则使用 Speech-to-Text API 可以达到最佳效果。

如果您遵循了这些准则,但没有从此 API 获得预期的结果,请参阅问题排查和支持

为达到最佳效果… 如果可能,请避免…
以 16000 Hz 或更高的采样率采集音频。 采样率较低可能会降低准确性。但是,应避免重新采样。例如,电话中的原生采样率通常为 8000 Hz,这也是应该发送到该服务的采样率。
使用无损编解码器录制和传输音频。建议使用 FLACLINEAR16 在录制或传输过程中使用 mp3、mp4、m4a、mu-law、a-law 或其他有损编解码器可能会降低准确性。如果您的音频已经采用了不受此 API 支持的编码,请将其转码为无损 FLACLINEAR16。如果您的应用必须使用有损编解码器以节省带宽,我们建议使用 AMR_WBOGG_OPUSSPEEX_WITH_HEADER_BYTE 编解码器(排名分先后)。
识别器旨在忽略背景音和噪音而不进行额外的降噪。但是,为达到最佳效果,请将麦克风放置在尽可能靠近用户的位置,特别是存在背景噪音时。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值