【音视频 | PCM】PCM格式详解

wkd_007

已于 2024-10-23 14:50:06 修改

阅读量1.1w

点赞数 31

分类专栏：音视频基础文章标签：音视频 pcm 采样量化编码音频编码

于 2023-10-29 23:02:19 首次发布

本文链接：https://blog.csdn.net/wkd_007/article/details/134101976

版权

音视频基础专栏收录该内容

22 篇文章 34 订阅

订阅专栏

😁博客主页😁：🚀https://blog.csdn.net/wkd_007🚀
🤑博客内容🤑：🍭嵌入式开发、Linux、C语言、C++、数据结构、音视频🍭
🤣本文内容🤣：🍭介绍数字音频的PCM格式🍭
😎金句分享😎：🍭子曰：君子不器。 ——《论语·为政篇》。意思是，君子不应像器具那样，只有一种用途。🍭

🎄一、PCM是什么？

✨1.1 PCM 的定义

PCM（Pulse Code Modulation）又称脉冲编码调制，是一种用于数字通信和音频记录的技术。PCM通过对模拟信号进行采样、量化、编码，将连续的模拟信号转换为离散的数字信号，从而实现信号的高保真传输和存储。

✨1.2 PCM 和声音(音频) 的关系

从PCM的定义来看，它主要是将模拟信号转成数字信号。那它和音频有什么关系呢？为什么是要转成数字信号呢？

1、自然界中的声音通过麦克风等采集设备处理后，首先会将声音信号转换成电信号，但此时的电信号是连续的模拟信号，将这些音频模拟信号在坐标系表示就类似于下图：

2、计算机只认识0和1，这样连续的模拟信号要被计算机传输或存储等处理的话，就需要先转换成数字信号；

3、通过模数转换器(A/D)，将音频模拟信号转换成数字信号后就可以被计算机处理，经过模数转换器处理后的音频数字信号就是PCM，是声音的原始数据。在音视频编程中，常被称为音频裸数据，它还可以继续被编码成其他格式的音频数据如：wav、mp3、aac、ogg；

4、计算机处理后的数字音频信号，再通过数模转换器(D/A)，转换成音频模拟信号，最后通过扬声器等设备转成声音信号，进行播放。

通过前面的介绍，PCM可以总结为：通过模数转换器处理后，将声音模拟信号转换而成的数字信号，是声音要给计算机处理的最原始的音频数据。

在这里插入图片描述

🎄二、PCM 生成过程

读者可以先思考一下，怎样才能将连续的模拟信号转成数字信号呢？

既然模拟信号看起来像连续的一段曲线，是不是可以用很密集的一些点去表示，只要有足够多的点，就可以让这些点看起来像模拟信号的曲线了；

如果选择用很多点去表示连续的曲线，那么这些点的取值范围应该是多少呢？取值范围越大，越能精确地表示模拟信号曲线；

确定范围后，表示曲线的每个点就成了各个数值，最后将这些数值按照格式排列起来，就成了数字信号了。

其实，PCM也是大概按照上面的流程去生成的，PCM生成需要经过采样(Sampling)、量化(Quantization)、编码(Encoding)。

✨2.1 采样(Sampling)

采样就是将模拟信号的音频转换成数字信号音频的过程，通过模/数转换器（A/D）对声波进行采样，每一次采样都记录下了原始模拟声波在某一时刻的状态，称之为样本，将一串的样本连接起来，就可以描述一段声波。把每一秒钟所采样的次数称为采样频率，单位为HZ（赫兹）。其实，采样就是在时间轴上对信号进行数字化。

采用过程如上图，用若干个黑点来表示红色的曲线。红色的曲线是音频模拟信号，各个黑点就是样本。

采样率：每一秒钟所采样的样本个数；如果每秒所采集的样本越多，越能精确的表示曲线。常见的采样率有：通话时的采样率为8KHz(每秒8000个样本)，常用的媒体采样率有44.1KHz(每秒44100个样本)，更高要求的有48KHz(每秒48000个样本)等等。

✨2.2 量化(Quantization)

量化就是为采集的样本确定一个取值范围。

比如用16比特的二进制信号来表示声音的一个样本，而16比特（一个short）所表示的范围是[-32768,32767]，共有65536个可能取值，因此最终音频的数字信号在幅度上也分为了65536层。

如果用8比特的二进制信号来表示声音的一个样本，8比特(一个unsigned char)所表示的范围是[0,255]，共有256个层级。

注意：
在8位的PCM音频数据中，样本的取值范围是从0到255。对于有符号的8位PCM编码，取值范围为-128到127。每个样本使用一个8位字节来表示其幅度值，其中最低位（LSB）表示0，最高位（MSB）表示255。这种编码方式使得正负幅度能够均匀地分布在取值范围内，方便存储和处理。如果没有明确指定是有符号还是无符号的情况下，通常默认为无符号的0到255取值范围。

在16位PCM音频数据中，样本的取值范围是-32768到32767。16位PCM音频数据使用两个字节（16个比特）来表示每个样本的取值，其中一个比特用于表示正负号（16位中最高位为符号位）。因此，样本的取值范围可以表示为从 $2^{15}$ (-32768)到 $2^{15}$ -1(32767)。这个范围与8位PCM音频数据的取值范围不同，因为它们使用了不同数量的比特来表示每个样本的取值。

✨2.3 编码(Encoding)

编码，就是按照一定的格式记录采样和量化后的样本数据，将量化后的数字信号转换为二进制码的过程。比如顺序存储或压缩存储，等等。

采样、量化后的数据经过编码后产生的二进制数据，就是PCM数据。

在这里插入图片描述

🎄三、PCM音频的特征或参数

采样率（Sampling Rate）：表示每秒钟采样的样本数量，单位为赫兹（Hz）。它决定了PCM音频的时间分辨率和频率范围。
位深度（Bit Depth）：也叫位宽，表示每个样本的取值精度，通常以位数表示。它决定了PCM音频的动态范围和信噪比。一般为16bit。
声道数（Number of Channels）：表示PCM音频中的独立声道数量。常见的声道数有单声道（Mono）和立体声（Stereo），还可以有更多声道如5.1声道、7.1声道等。
字节序（Byte Order）：表示多字节数据在存储或传输中的排列顺序。常见的字节序有大端序（Big Endian）和小端序（Little Endian）两种。常见的为小端字节序。
采样数据是否有符号（Signed or Unsigned Samples）：表示每个样本的取值是否包含符号位。有符号PCM样本的取值范围涵盖正负值，而无符号PCM样本的取值范围仅包含非负值。以 s16le 为例：它描述的是有符号16位小端PCM数据。

这些参数共同定义了PCM音频的基本特征，对于处理、存储和传输PCM音频非常重要。不同的应用场景和需求可能需要不同的参数设置来满足特定的要求。

在这里插入图片描述

🎄四、PCM数据流

这小节介绍一段PCM的数据流怎么表示：

一般，单声道的PCM数据流是，将每个采样点数组按顺序排列，下面以8bit、单声道PCM流为例：

+---------+-----------+-----------+----
 binary   | 0010 0000 | 1010 0000 | ...
 decimal  | 32        | -96       | ...
+---------+-----------+-----------+----

如果是多声道的PCM流，则是将一个采样点的各个声道数值交错存储，存储完一个采样点后，再存储下一个。下面以双声道的PCM流为例：

+---------+-----------+-----------+-----------+-----------+----
    FL    |     FR    |     FL 	  |     FR    |     FL 	  |    
+---------+-----------+-----------+-----------+-----------+----

其他常见的多声道PCM流：

FL FR                       (stereo)
FL FR LFE                   (2.1 surround)
FL FR BL BR                 (quad)
FL FR FC BL BR              (quad + center)
FL FR FC LFE SL SR          (5.1 surround - last two can also be BL BR)
FL FR FC LFE BC SL SR       (6.1 surround)
FL FR FC LFE BL BR SL SR    (7.1 surround)

在这里插入图片描述