音视频开发系列（3）音频编解码的原理

音视频开发老马

已于 2022-04-08 21:04:59 修改

阅读量3.8k

点赞数 2

分类专栏：音视频开发流媒体服务器文章标签：音视频视频编解码实时音视频 webrtc c++

于 2022-04-08 20:52:14 首次发布

本文链接：https://blog.csdn.net/yinshipin007/article/details/124050636

版权

本文详细介绍了音频编解码的原理，包括采样率、通道数和量化位数等基本要素，以及压缩音频的重要性。通过举例说明，展示了声音压缩如何显著减少存储需求。文章探讨了编码器设计时需要考虑的因素，如压缩比、算法复杂度和延时，并介绍了经典的语音编码模型，如LPC和G.729。此外，还讨论了听觉模型在音频编码中的作用，如临界频带和绝对听觉阈值。最后，提到了AAC协议族及其低延迟特性，以及在实时通讯领域的应用。

摘要由CSDN通过智能技术生成

详解音频编解码的原理、演进和应用选型等

4、语言/音频编码总表

▲ 语言/音频编码总表

上图展示的是语言/音频编码总表，可以看到其比视频编码要复杂得多，单纯的算法也远远比视频要更加复杂。

5、数字语言基本要素

数字声音具有三个要素：

1）采样率； 2）通道数； 3）量化位数。

▲ 声音数字化的过程

如上图所示，声音数字化的过程为：

1）采样：在时间轴上对信号数字化； 2）量化：在幅度轴上对信号数字化； 3）编码：按一定格式记录采样和量化后的数字数据。

6、为什么要压缩

压缩音频，主要是为了在降低带宽负担的同时为视频腾出更多带宽空间。存储和带宽二大因素决定了语音压缩的必要性。

我们看看下面的例子。

长度为4分钟，采样频率为44100Hz,采样深度为16bits,双声音Wav文件大小：

44100Hz*16bits*4minutes*2=(44100/1second)*16bits*(4minutes*(60seconds/1minutes)*2=705600bits/second*240seconds=169344000bits=169344000/(8bits/1byte)*2=42336000bytes=42336000/(1048576/1M)bytes=40.37MB

MP3，128kbps压缩后文件大小：

128kbps*4minutes=(128kbits/1second)*(4minutes*(60seconds/1minutes))=(128kbits/1second)*240seconds=30720kbits=30720kbits/(8bits/1byte)=3840kbytes=3840k/(1024k/1M)bytes=3.75Mbytes=3.75MB

正如上面的例子，声音压缩后，存储大小为原大小的十分之一，压缩率十分可观！

7、编码器考虑因素

7.1 基本概念

编码器考虑的因素：