最佳做法
本文档包含有关如何将语音数据提供给 Speech-to-Text API 的建议。这些准则旨在提高该服务的效率和准确性并实现合理的响应速度。如果发送到该服务的数据在本文档中所述的参数范围内,则使用 Speech-to-Text API 可以达到最佳效果。
如果您遵循了这些准则,但没有从此 API 获得预期的结果,请参阅问题排查和支持。
为达到最佳效果… | 如果可能,请避免… |
---|---|
以 16000 Hz 或更高的采样率采集音频。 | 采样率较低可能会降低准确性。但是,应避免重新采样。例如,电话中的原生采样率通常为 8000 Hz,这也是应该发送到该服务的采样率。 |
使用无损编解码器录制和传输音频。建议使用 FLAC 或 LINEAR16 。 |
在录制或传输过程中使用 mp3、mp4、m4a、mu-law、a-law 或其他有损编解码器可能会降低准确性。如果您的音频已经采用了不受此 API 支持的编码,请将其转码为无损 FLAC 或 LINEAR16 。如果您的应用必须使用有损编解码器以节省带宽,我们建议使用 AMR_WB 、OGG_OPUS 或 SPEEX_WITH_HEADER_BYTE 编解码器(排名分先后)。 |
识别器旨在忽略背景音和噪音而不进行额外的降噪。但是,为达到最佳效果,请将麦克风放置在尽可能靠近用户的位置,特别是存在背景噪音时。 |