谷歌ASR识别的最佳做法

最新推荐文章于 2024-05-13 12:10:37 发布

茶不思基

最新推荐文章于 2024-05-13 12:10:37 发布

阅读量609

点赞数

分类专栏：音视频

本文档提供了关于如何优化语音数据以供Google Speech-to-Text API处理的最佳实践。建议包括保持16000 Hz的采样率，使用100毫秒的帧大小，避免音频预处理以及在请求配置中准确描述音频属性以提高识别效率和准确性。

摘要由CSDN通过智能技术生成

最佳做法

本文档包含有关如何将语音数据提供给 Speech-to-Text API 的建议。这些准则旨在提高该服务的效率和准确性并实现合理的响应速度。如果发送到该服务的数据在本文档中所述的参数范围内，则使用 Speech-to-Text API 可以达到最佳效果。

如果您遵循了这些准则，但没有从此 API 获得预期的结果，请参阅问题排查和支持。

为达到最佳效果…	如果可能，请避免…
以 16000 Hz 或更高的采样率采集音频。	采样率较低可能会降低准确性。但是，应避免重新采样。例如，电话中的原生采样率通常为 8000 Hz，这也是应该发送到该服务的采样率。
使用无损编解码器录制和传输音频。建议使用 `FLAC` 或 `LINEAR16`。	在录制或传输过程中使用 mp3、mp4、m4a、mu-law、a-law 或其他有损编解码器可能会降低准确性。如果您的音频已经采用了不受此 API 支持的编码，请将其转码为无损 `FLAC` 或 `LINEAR16`。如果您的应用必须使用有损编解码器以节省带宽，我们建议使用 `AMR_WB`、`OGG_OPUS` 或 `SPEEX_WITH_HEADER_BYTE` 编解码器（排名分先后）。
识别器旨在忽略背景音和噪音而不进行额外的降噪。但是，为达到最佳效果，请将麦克风放置在尽可能靠近用户的位置，特别是存在背景噪音时。

关注

专栏目录