1、基础概念
本节音视频的基础概念摘自书籍《FFmpeg入门详解 音视频原理及应用》。
1.1音频
声音的三要素为频率、振幅和波形,即声音的音调、声波的响度和声音的音色。
音频是一种利用数字化手段对声音进行录制、存放、编辑、压缩和播放的技术,相关概念包括采样、量化、编码、采样率、声道数和比特率等。
采样是指只在时间轴上对信号进行数字化。
量化是指在幅度轴上对信号进行数字化。
每个量化都是一个采样,将这么多采样进行存储就叫做编码。
声道数是指所支持的能发不同声音的音响个数,常见的有单声道、立体声道等。
比特率,也叫码率(b/s)指一个数据流中每秒能通过的信息量。
WebRTC 对音频的噪声抑制和回声消除做了很好的处理。
音频格式是指要在计算机内播放或处理的音频文件的格式,是对声音文件进行数、模转换的过程,常见的有 MP3、WAV、AAC 等。
音频信号能压缩的依据包括声音信号中存在大量的冗余度,以及人的听觉具有强音能抑制同时存在的弱音现象。
压缩编码原理是在压缩掉冗余的信号,冗余信号是指不能被人耳感知到的信息,包括听觉范围之外以及被掩蔽掉的音频信号,压缩编码分为 2 类。
-
无损压缩:熵编码,包括哈夫曼、算术和行程等编码。
-
有损压缩:波形、参数、混合等编码,波形编码包括 PCM、DPCM、ADPCM、子带编码、矢量量化等。
1.2 视频
视频泛指将一系列静态影像以电信号的方式加以捕捉、记录、处理、存储、传送与重现的各种技术。
帧(Frame)是视频的一个基本概念,表示一副画面,一段视频由许多帧组成。
视频帧又分为 I 帧、P 帧和 B 帧:
-
I 帧是帧内编码帧,是一个完整都关键帧,无需辅助就能完整显示画面;
-
P 帧是前向预测编码帧,是一个非完整帧,需要参考前面的 I 帧或 P帧生成画面;
-
B 帧是双向预测编码帧,需要参考前后图像帧编码生成。
帧率(f/s 或 Hz)是单位时间内帧的数量,电视一般 1 秒 24 帧,帧率越高,画面越流畅、逼真。
码率即比特率(b/s),指单位时间内播放连续媒体(如压缩后的音频或视频)的比特数量,码率越高带宽消耗得就越多。
视频格式非常多,包括视频文件格式、视频封装格式和视频编码格式等。
视频文件格式有 MP4、RMVB、MKV、FLV、TS、M3U8 等。FLV 是一种流媒体格式,TS 广泛应用于数字广播系统。
M3U8 是使用 HLS 协议格式的基础,文件内容是一个播放列表(Playlist),采用 UTF-8 编码,记录了一些列媒体片段资源,顺序播放片段即可完整展示资源,如下所示。
#EXTM3U #EXT-X-STREAM-INF:BANDWIDTH=150000,RESOLUTION=416x234,CODECS="avc1.42e00a,mp4a.40.2" http://example.com/low/index.m3u8 #EXT-X-STREAM-INF