音视频基础（一）---原理

weixin_45673259

已于 2024-03-09 21:22:21 修改

阅读量930

点赞数 26

分类专栏：音视频文章标签：音视频

于 2023-11-25 22:50:54 首次发布

本文链接：https://blog.csdn.net/weixin_45673259/article/details/125010627

版权

音视频专栏收录该内容

19 篇文章 1 订阅

订阅专栏

音视频录制原理

在这里插入图片描述

音视频播放原理

在这里插入图片描述

图像表示格式

RGB格式
红光（R）
绿光（G）
蓝光（B）
每个像素用8bit表示
对于一幅图像，一般使用整数表示方法来进行描述，比如计算一张的RGB_888图像的大小，可采用如下方式：
1280×720 * 3 = 2.637 MB，4分钟就达到了15G的容量。
假如是一部90分钟的电影，每秒25帧，则一部电影为
2.637MB90分钟60秒*25FPS= 347.651GB

YUV格式
用途：主要用于视频信号的压缩、传输和存储，和向后相容老式黑白电视。
其中“Y”表示明亮度（Luminance或Luma），也称灰阶值；
“U”和“V”表示的则是色度（Chrominance或Chroma）
作用是描述影像色彩及饱和度，用于指定像素的颜色。
YUV格式：有两大类：planar和packed。
对于planar的YUV格式，先连续存储所有像素点的Y，紧接着存储所有像素点的U，随后是所有像素点的V。
对于packed的YUV格式，每个像素点的Y,U,V是连续交*存储的。
YUV444 packed格式：
在这里插入图片描述
YUV444 planar格式：

libyuv，Google开源的实现各种YUV与RGB间相互转换、旋转、缩放的库。

YUV存在多种格式，比如YUV420p，YUV420sp等，不同的YUV格式的数据在存储时的排列顺序是不一样的，在开发的过程中必须非常注意，否则画面会显示不正常。比如花屏，绿屏等现象。
在这里插入图片描述

YUV 4:4:4采样，每一个Y对应一组UV分量。
YUV 4:2:2采样，每两个Y共用一组UV分量。
YUV 4:2:0采样，每四个Y共用一组UV分量。

相较于RGB，我们可以计算一帧为1280×720的视频帧，用YUV420P的格式来表示，其数据量的大小如下： 4 2 -> 1 + 0.5 = 1.5
1280 * 720 * 1 ＋ 1280 * 720 * 0.5 = 1.318MB
如果fps（1秒的视频帧数目）是25，按照一般电影的长度90分钟来计算，那么这部电影用YUV420P的数据格式来表示的话，其数据量的大小就是：
1.318MB * 25fps * 90min * 60s = 173.76GB

视频图像主要概念1

视频码率：kb/s，是指视频文件在单位时间内使用的数据流量，也叫码流率。码率越大，说明单位时间内取样率越大，数据流精度就越高。
视频帧率：fps，通常说一个视频的25帧，指的就是这个视频帧率，即1秒中会显示25帧。帧率越高，给人的视觉就越流畅。
视频分辨率：分辨率就是我们常说的640x480分辨率、1920x1080分辨率，分辨率影响视频图像的大小。

视频图像主要概念2

I 帧（Intra coded frames）：I帧不需要参考其他画面而生成,解码时仅靠自己就重构完整图像;

I帧图像采用帧内编码方式;
I帧所占数据的信息量比较大;
I帧图像是周期性出现在图像序列中的，出现频率可由编码器选择;
I帧是P帧和B帧的参考帧(其质量直接影响到同组中以后各帧的质量);
I帧是帧组GOP的基础帧(第一帧),在一组中只有一个I帧;
I帧不需要考虑运动矢量;

P 帧（Predicted frames）：根据本帧与相邻的前一帧（I帧或P帧）的不同点来压缩本帧数据，同时利用了空间和时间上的相关性。
P帧属于前向预测的帧间编码。它需要参考前面最靠近它的I帧或P帧来解码。
B 帧（Bi-directional predicted frames）：B 帧图像采用双向时间预测，可以大大提高压缩倍数。
在这里插入图片描述

音频

声音是一种由物体振动引发的物理现象。这种振动引起了周围空气压强的振荡，我们称这种振荡的函数表现形式为波形。
声音的频率是周期的倒数，它表示的是声音在1秒钟内的周期数，单位是赫兹(Hz)。千赫(kHz),即1000Hz,表示每秒振动1000次。声音按频率可作如下划分:

次声 0～20Hz
人耳能听见的声音 20Hz～20KHz
超声 20KHz～1GHz
特超声 1GHz～10THz
声音有振幅，振幅的主观感觉是声音的大小。

PCM脉冲编码调制

PCM(Pulse Code Modulation)，脉冲编码调制。人耳听到的是模拟信号，PCM是把声音从模拟信号转化为数字信号的技术。

采样频率
根据Nyguist采样定律，要从采样中完全恢复原始信号波形，采样频率必须至少是信号中最高频率的两倍。
人耳能听见的声音频率范围在20Hz-20KHz。采样频率为44.1Khz，就能保证声音到达20Khz也能被数字化，从而使得经过数字化处理之后，人耳听到的声音质量不会被降低。

量化
采样是在离散的时间点上进行的，而采样值本身在计算机中也是离散的。
采样值的精度取决于它用多少位来表示，这就是量化。例如8位量化可以表示256个不同值，而CD质量的16位量化可以表示65 536个值，范围为[-32768, 32767]。
下图是一个3位量化的示意图，可以看出3位量化只能表示8个值:0.75,0.5,0.25,0,─0.25,─0.5,─0.75和 ─1，因而量化位数越少，波形就越难辨认，还原后的声音质量也就越差(可能除了一片嗡嗡声之外什么都没有)。
在这里插入图片描述

音频常见名词

采样频率：每秒钟采样的点的个数。常用的采样频率有：

22000（22kHz）：无线广播。
44100（44.1kHz）：CD音质。
48000（48kHz）：数字电视，DVD。
96000（96kHz）：蓝光，高清DVD。
192000(192kHz): 蓝光，高清DVD。

采样精度（采样深度）：每个“样本点”的大小，
常用的大小为8bit， 16bit，24bit。

通道数：单声道，双声道，四声道，5.1声道。

比特率：每秒传输的bit数，单位为：bps（Bit Per Second）
间接衡量声音质量的一个标准。
没有压缩的音频数据的比特率 = 采样频率 * 采样精度 * 通道数。

码率：压缩后的音频数据的比特率。常见的码率：
96kbps： FM质量
128-160kbps：一般质量音频。
192kbps： CD质量。
256-320Kbps：高质量音频

码率越大，压缩效率越低，音质越好，压缩后数据越大。
码率 = 音频文件大小/时长。

帧：每次编码的采样单元数，比如MP3通常是1152个采样点作为一个编码单元，AAC通常是1024个采样点作为一个编码单元。

帧长：可以指每帧播放持续的时间：每帧持续时间(秒) = 每帧采样点数 / 采样频率（HZ）
比如：MP3 48k, 1152个采样点,每帧则为 24毫秒
1152/48000= 0.024 秒 = 24毫秒；
也可以指压缩后每帧的数据长度。

所以讲到帧的时候要注意它适用的场合。

交错模式：数字音频信号存储的方式。数据以连续帧的方式存放，即首先记录帧1的左声道样本和右声道样本，再开始帧2的记录…
在这里插入图片描述
非交错模式：首先记录的是一个周期内所有帧的左声道样本，再记录所有右声道样本

数字音频压缩编码

数字音频压缩编码在保证信号在听觉方面不产生失真的前提下，对音频数据信号进行尽可能大的压缩，降低数据量。数字音频压缩编码采取去除声音信号中冗余成分的方法来实现。所谓冗余成分指的是音频中不能被人耳感知到的信号，它们对确定声音的音色，音调等信息没有任何的帮助。
冗余信号包含人耳听觉范围外的音频信号以及被掩蔽掉的音频信号等。
此外，根据人耳听觉的生理和心理声学现象，当一个强音信号与一个弱音信号同时存在时，弱音信号将被强音信号所掩蔽而听不见，这样弱音信号就可以视为冗余信号而不用传送。这就是人耳听觉的掩蔽效应，主要表现在频谱掩蔽效应和时域掩蔽效应。

一个频率的声音能量小于某个阈值之后，人耳就会听不到。当有另外能量较大的声音出现的时候，该声音频率附近的阈值会提高很多，即所谓的掩蔽效应。如右图所示：
在这里插入图片描述
当强音信号和弱音信号同时出现时，还存在时域掩蔽效应。即两者发生时间很接近的时候，也会发生掩蔽效应。时域掩蔽过程曲线如图所示，分为前掩蔽、同时掩蔽和后掩蔽三部分。

**时域掩蔽效应可以分成三种：前掩蔽，同时掩蔽，后掩蔽。**前掩蔽是指人耳在听到强信号之前的短暂时间内，已经存在的弱信号会被掩蔽而听不到。同时掩蔽是指当强信号与弱信号同时存在时，弱信号会被强信号所掩蔽而听不到。后掩蔽是指当强信号消失后，需经过较长的一段时间才能重新听见弱信号，称为后掩蔽。这些被掩蔽的弱信号即可视为冗余信号。

压缩编码方法

在这里插入图片描述
对每一个音频声道中的音频采样信号：
将它们映射到频域中,这种时域到频域的映射可通过子带滤波器实现。每个声道中的音频采样块首先要根据心理声学模型来计算掩蔽门限值；
由计算出的掩蔽门限值决定从公共比特池中分配给该声道的不同频率域中多少比特数，接着进行量化以及编码工作；
将控制参数及辅助数据加入数据之中，产生编码后的数据流。

内容：载自零声学院音视频课程。

weixin_45673259

关注

26
点赞
踩
21

收藏

觉得还不错? 一键收藏
0
评论
音视频基础（一）---原理

下图是一个3位量化的示意图，可以看出3位量化只能表示8个值:0.75,0.5,0.25,0,─0.25,─0.5,─0.75和 ─1，因而量化位数越少，波形就越难辨认，还原后的声音质量也就越差(可能除了一片嗡嗡声之外什么都没有)。YUV存在多种格式，比如YUV420p，YUV420sp等，不同的YUV格式的数据在存储时的排列顺序是不一样的，在开发的过程中必须非常注意，否则画面会显示不正常。声音的频率是周期的倒数，它表示的是声音在1秒钟内的周期数，单位是赫兹(Hz)。帧率越高，给人的视觉就越流畅。
复制链接

扫一扫