音频编码简介
音频编码是指存储和传输音频数据的方式。以下文档介绍了此类编码的原理。如需了解为您的应用选择最佳编码的准则,请参阅最佳做法。
star数字音频编码十分复杂,您通常无需了解 Speech API 中处理音频的详细信息。本文仅提供相关概念的综述。其中某些背景信息可能有助于了解该 API 的原理,以及在您的应用中应该如何编制和处理音频。
音频格式与编码
请注意,音频格式并不等于音频编码。例如,像 .WAV 这种常用文件格式定义了音频文件头的格式,但其本身并不是音频编码。.WAV 音频文件通常(但不总是)使用线性 PCM 编码;不过,您只有在检查 .WAV 文件头之后才能确定该文件的特定编码。
然而,FLAC 既是一种文件格式,也是一种编码,这有时会引起混淆。在 Speech-to-Text API 中,只有 FLAC 编码要求音频数据包含标头;所有其他音频编码均指定无标头音频数据。如果提到 Speech-to-Text API 中的 FLAC 时,则始终指编解码器。如果要表示 FLAC 文件格式,则会使用“.FLAC 文件”格式。
starWAV 或 FLAC 文件不要求指定编码和采样率。如果省略,Cloud Speech-to-Text 会根据文件头自动确定 WAV 或 FLAC 文件的编码和采样率。如果您指定的编码或采样率值与文件头中的值不匹配,Cloud Speech-to-Text 将返回错误。
支持的音频编码
Speech-to-Text API 支持多种不同编码。下表列出了支持的音频编解码器:
编解码器 | 名称 | 无损 | 使用说明 |
---|---|---|---|
MP3 |
MPEG 第三层音频 | 否 | 仅提供 Beta 版。如需了解详情,请参阅 RecognitionConfig |