音频基础知识-PCM浅析

最新推荐文章于 2024-07-10 03:12:37 发布

音视频开发老马

最新推荐文章于 2024-07-10 03:12:37 发布

阅读量1.7k

点赞数

分类专栏： Android音视频开发音视频开发流媒体服务器文章标签：音视频实时音视频视频编解码 c++ webrtc

本文链接：https://blog.csdn.net/yinshipin007/article/details/126255760

版权

本文深入探讨PCM音频，包括PCM元数据、数据存储和音量计算。通过分析音频的基础知识，如频率、振幅和模拟到数字的转换，阐述了PCM在音频处理中的角色。此外，文章还介绍了在Android、iOS和跨平台环境中如何高效地提取和计算PCM数据的分贝值，以及播放PCM音频的方法。

摘要由CSDN通过智能技术生成

最近有个需求：对音频裁剪时，裁剪条的纵坐标必须是音频音量，以帮助用户更好的选择音频区域，所以就需要快速准确的提取出音频的音量列表。本文主要介绍下从mp4文件中提取音轨音量的方式，以及相关的知识点。

声音的本质是空气压力差造成的空气振动，振动产生的声波可以在介质中快速传播，当声波到达接收端时（比如：人耳、话筒），引起相应的振动，最终被听到。

声音有两个基本属性：频率与振幅。声音的振幅就是音量，频率的高低就是音调，频率的单位是赫兹（Hz）。

当声波传递到话筒时，话筒里的碳膜会随着声音一起振动，而碳膜下面是一个电极，碳膜振动时会触碰电极，接触时间的长短跟振动幅度有关（即：声音响度），这样就完成了声音信号到电压信号的转换。后面经过电路放大后，就得到了模拟音频信号。

模拟音频：用连续的电流或电压表示的音频信号，在时间和振幅上是连续。过去记录的声音都是模拟音频，比如：机械录音（以留声机、机械唱片为代表）、磁性录音（以磁带录音为代表）等模拟录音方式。

计算机不能直接处理连续的模拟信号，所以需要进行A/D转换，以一定的频率对模拟信号进行采样（就是获取一定时间间隔的波形振幅值，采样后模拟出的波形与原始波形之间的误差称为采样噪音），然后再进行量化和存储，就得到了数字音频。

数字音频：通过采样和量化获得的离散的、数字化的音频信号，即：计算机可以处理的二进制的音频数据。

相反的，当通过扬声器播放声音时，计算机内部的数字信号通过D/A转换，还原成了强弱不同的电压信号。这种强弱变化的电压会推动扬声器的振动单元产生震动，就产生了声音。整个流程可以用下图来表示：

最常见的A/D转换是通过脉冲编码调制PCM(Pulse Code Modulation)。要将连续的电压信号转换为PCM，需要进行采样和量化，我们一般从如下几个维度描述PCM：

采样频率（Sampling Rate）：单位时间内采集的样本数，即：采样周期的倒数，指两个采样之间的时间间隔。采样频率越高，声音质量越好，但同时占用的带宽越大。一般情况下，22KHz相当于普通FM的音质，44KHz相当于CD音质，目前的常用采样频率都不超过48KHz。
采样位数：表示一个样本的二进制位数，即：每个采样点用多少比特表示。计算机中音频的量化深度一般为4、8、16、32位（bit）等。例如：采样位数为8 bit时，每个采样点可以表示256个不同的采样值，而采样位数为16 bit时，每个采样点可以表示65536个不同的采样值。采样位数的大小影响声音的质量，采样位数越多，量化后的波形越接近原始波形，声音的质量越高，而需要的存储空间也越多；位数越少，声音的质量越低，需要的存储空间越少。一般情况下，CD音质的采样位数是16 bit，移动通信是8 bit。
声道数：记录声音时，如果每次生成一个声波数据，称为单声道；每次生成两个声波数据，称为双声道（立体声）。单声道的声音只能使用一个喇叭发声，双声道的PCM可以使两个喇叭同时发声（一般左右声道有分工），更能感受到空间效果。
时长：采样时长

数字音频文件大小（Byte) = 采样频率（Hz）× 采样时长（S）×（采样位数 / 8）× 声道数（单声道为1，立体声为2）

文章最后，扫马，相关学习资料免费领取

采样点数据有有符号和无符号之分，比如：8 bit的样本数据，有符号的范围是-128 ~ 127，无符号的范围是0 ~ 255。大多数PCM样本使用整形表示，但是在一些对精度要求比较高的场景，可以使用浮点类型表示PCM样本数据。

下面看一个具体的采样示例：

其中&

关注

专栏目录