C++音视频开发学习 --- 什么是音频？

student.J

已于 2024-05-12 22:20:46 修改

阅读量689

点赞数 19

分类专栏： C++音视频开发学习文章标签：音视频学习

于 2024-05-12 22:15:59 首次发布

本文链接：https://blog.csdn.net/weixin_45690131/article/details/138768990

版权

C++音视频开发学习专栏收录该内容

8 篇文章 0 订阅

订阅专栏

声音的物理性质：振动、波形、频率、振幅

振动：声音是一种由物体振动引发的物理现象，如小提琴的弦声等。物体的振动使其四周空气的压强产生变化，这种忽强忽弱变化以波的形式向四周传播，当被人耳所接收时，我们就听见了声音。

波形：声音是由物体的振动产生的，这种振动引起了周围空气压强的振荡，我们称这种振荡的函数表现形式为波形。

频率：声音的频率是周期的倒数，它表示的是声音在 1 秒钟内的周期数，单位是赫兹 (Hz) 。千赫 (kHz), 即 1000Hz, 表示每秒振动1000 次。声音按频率可作如下划分 :
次声 0 ～ 20Hz
人耳能听见的声音 20Hz ～ 20KHz
超声 20KHz ～ 1GHz
特超声 1GHz ～ 10THz

振幅：声音有振幅，振幅的主观感觉是声音的大小。声音的振幅大小取决于空气压力波距平均值 ( 也称平衡态 ) 的最大偏移量。

在这里插入图片描述

音频的数字化

计算机并不直接使用连续平滑的波形来表示声音，它是每隔固定的时
间对波形的幅值进行采样，用得到的一系列数字量来表示声音。

PCM(Pulse Code Modulation) ，脉冲编码调制。人耳听到的是模拟信号， PCM 是把声音从模拟信号转化为数字信号的技术。
在这里插入图片描述

采样频率

根据 Nyguist 采样定律，要从采样中完全恢复原始信号波形，采样频率必须至少是信号中最高频率的两倍。

前面提到人耳能听到的频率范围是 [20H~20kHz] ，所以采样频率一般为 44.1Khz ，这样就能保证声音到达 20Khz 也能被数字化，从而使得经过数字化处理之后，人耳听到的声音质量不会被降低。

采样频率：每秒钟采样的点的个数。常用的采样频率有：
22000 （ 22kHz ）：无线广播。
44100 （ 44.1kHz ）： CD 音质。
48000 （ 48kHz ）：数字电视， DVD 。
96000 （ 96kHz ）：蓝光，高清 DVD 。
192000(192kHz): 蓝光，高清 DVD 。

采样量化精度（深度）

采样是在离散的时间点上进行的，而采样值本身在计算机中也是离散的。

采样值的精度取决于它用多少位来表示，这就是量化。例如 8 位量化可以表示 256 个不同值，而 CD 质量的 16 位量化可以表示 65 536 个值，范围为 [-32768, 32767] 。

下图是一个 3 位量化的示意图，可以看出 3 位量化只能表示 8 个值 :0.75,0.5,0.25,0,-0.25,-0.5,-0.75 和 -1 ，因而量化位数越少，波形就越难辨认，还原后的声音质量也就越差 ( 可能除了一片嗡嗡声之外什么都没有 )
在这里插入图片描述

常见名词

通道数：单声道，双声道，四声道， 5.1 声道。

比特率：每秒传输的 bit 数，单位为： bps （ Bit Per Second ）间接衡量声音质量的一个标准。没有压缩的音频数据的比特率 = 采样频率 * 采样精度 * 通道数。

码率：压缩后的音频数据的比特率。常见的码率：
96kbps ： FM 质量
128-160kbps ：一般质量音频。
192kbps ： CD 质量。
256-320Kbps ：高质量音频
码率越大，压缩效率越低，音质越好，压缩后数据越大。
码率 = 音频文件大小 / 时长。

举例：采样频率 44100 ，采样精度16bit ， 2 通道（声道），采集 4 分钟的数据：
44100162460= 338688000bit
338688000/8/1024/1024 = 40M字节
比特率：采样频率 * 采样精度 通道数 = 4410016*2=1411200bit/s

帧：每次编码的采样单元数，比如 MP3 通常是 1152 个采样点作为一个编码单元， AAC 通常是 1024 个采样点作为一个编码单元。

帧长：可以指每帧播放持续的时间：每帧持续时间 ( 秒 ) = 每帧采样点数 / 采样频率（ HZ ）
比如： MP3 48k, 1152 个采样点 , 每帧则为 24 毫秒。
1152/48000= 0.024 秒 = 24 毫秒；
也可以指压缩后每帧的数据长度。所以讲到帧的时候要注意他适用的场合。

交错模式：数字音频信号存储的方式。数据以连续帧的方式存放，即首先记录帧 1 的左声道样本和右声道样本，再开始帧 2的记录，依次存放其他帧。LRLRLRLR…

非交错模式：首先记录的是一个周期内所有帧的左声道样
本，再记录所有右声道样本。LLL…RRR…

音频编码

数字音频信号如果不加压缩地直接进行传送，将会占用极大的带宽。例如，一套双声道数字音频若取样频率为 44.1KHz ，每样值按16bit 量化，则其码率为：244.1kHz16bit=1.411Mbit/s，那么一段音频所占用的内存将会很庞大。

因此必须采取音频压缩技术对音频数据进行处理，才能有效地传输音频数据。数字音频压缩编码在保证信号在听觉方面不产生失真的前提下，对音频数据信号进行尽可能大的压缩，降低数据量。数字音频压缩编码采取去除声音信号中冗余成分的方法来实现。所谓冗余成分指的是音频中不能被人耳感知到的信号，它们对确定声音的音色，音调等信息没有任何的帮助。

冗余信号包含人耳听觉范围外的音频信号以及被掩蔽掉的音频信号等。例如，人耳所能察觉的声音信号的频率范围为 20Hz ～20KHz 除此之外的其它频率人耳无法察觉，都可视为冗余信号。

此外，根据人耳听觉的生理和心理声学现象，当一个强音信号与一个弱音信号同时存在时，弱音信号将被强音信号所掩蔽而听不见，这样弱音信号就可以视为冗余信号而不用传送。这就是人耳听觉的掩蔽效应，主要表现在频谱掩蔽效应和时域掩蔽效应。

编码方法：当前数字音频编码领域存在着不同的编码方案和实现方式 , 但基本的编码思路大同小异。对每一个音频声道中的音频采样信号：
1、将它们映射到频域中 , 这种时域到频域的映射可通过子带滤波器实现。每个声道中的音频采样块首先要根据心理声学模型来计算掩蔽门限值；
2、由计算出的掩蔽门限值决定从公共比特池中分配给该声道的不同频率域中多少比特数，接着进行量化以及编码工作；
3、将控制参数及辅助数据加入数据之中，产生编码后的数据流。
编码格式：OPUS、MP3、AAC、AC3 和 EAC3 杜比公司的方案。