多媒体应用设计师第7章多媒体数字压缩编码技术基础

福大大架构师每日一题

已于 2023-10-27 17:52:44 修改

阅读量754

点赞数 1

分类专栏：音视频+golang相关文章标签：多媒体应用设计师

于 2023-10-17 11:04:43 首次发布

本文链接：https://blog.csdn.net/weixin_48502062/article/details/133879188

版权

音视频+golang相关专栏收录该内容

73 篇文章

订阅专栏

1.多媒体数据压缩技术理论基础及压缩编码方法分类

必要性和可能性，第2版P155

必要性：大数据量的图像信息会给存储器的存储容量，通信线路的带宽，以及计算机的处理速度增加极大压力。如果没有多媒体编码压缩技术的发展，大容量图像，视频信息的存储和传输就难以实现。语音、图像与视频等多媒体的数据压缩编码是解决多媒体数据的存储与传输的关键技术之一。

可能性：视频由一顿帧图像组成，图像的各像素之间存在一定的相关性，即几余度。通过某种编码方法提取或减少元余度可实现压缩数据的目的。

压缩编码基础理论，第2版P158

香农提出了信息率失真理论和限失真信源编码定理，为各种数据压缩偏码奠定了理论基础。
多媒体数据可以进行压缩的依据是信息量等于数据量与冗余量之差。

如果信源编码的熵大于信源的实际墒，则该信源中一定存在冗余。

去掉冗余不会减少信息量，仍可原样恢复数据:但是如果减少了熵，数据则不能完全恢复。

计算题

图像据的特点之一是数据量大，图像分辨率（PPI）、图像像素=水平尺寸（英寸）*每英寸点数（DPI）*垂直尺寸（英寸）*每英寸点数（DPI）。

数据量 (字节数B) =图像水平分率x图垂直分辨率x颜色深度 (位数) /8。

常见数据冗余如下：第2版P156 第3版P183

空间冗余：是静态图像数据冗余，采样点的颜色之间具有空间连贯性，即发光强度和色彩以及饱和度都相同。例如: 在静态图像中有一块表面预色均匀的区域。
时间冗余：是序列图像(电视图像、运动图像冗余，同一时间轴区间内一组连续的画面，即相邻制的数据相同。
结构冗余：像素值存在明显的分布模式，图像区域内存在较强的纹理或者具有相同规则形状，例草席图案、地板砖图案。
知识冗余：。规律性的结构可由先验知识和背景知识得到，此类冗余称为知识冗余，是模型编码主要利用的特征。例如: 人脸的图像有固定的结构，比如说嘴的上方有鼻子，鼻子的上方有眼镜。
视觉冗余：人类的视觉系统对图像的敏感性时非均匀和非线性的。但记录原始图像数据时，通常时假设视觉系统时线性和均匀的，对视觉敏感与否不进行设定，这样就会产生比较多的数据，这就是视觉冗余。例如视觉系统对图像亮度的敏感性远远高于色彩度。
图像区域的相同性冗余：是指图像中像素值相同或相近而产生的数据重复性，使用向量量化方法进行图像压缩编码.。
纹理的统计冗余：图像纹理不严格服从某一分布规律但是它在统计的意义上服从该规律，称之为纹理的统计冗余。
、
听觉冗余：听觉具有掩蔽效应。
信息熵冗余（编码冗余）：信息熵是指一组数据所携带的平均信息量。数字化一幅图像时，每个像素使用相同的符号，这样必然存在冗余，哈夫曼编码就可以去掉符号冗余，从而节约码字。

编码分类

图像编码是否有误差：
无损编码：霍夫曼编码、算术编码、行程编码、字典编码、统计编码
有损编码：预测编码、变换编码、分形编码、基于模型编码、其他编码

图像根据编码原理划分：
统计编码（熵编码）：霍夫曼编码Huffman、算术编码、香农-费诺编码、游程长度编码RLC、字典编码（隐式字典（LZ77和LZSS）和显示字典（LZ78和LZW））
预测编码：线性预测编码DPCM、自适应线性预测编码ADPCM
变换编码：傅里叶变换FFT、离散余弦DCT（次最优的正交交换）、卡胡南-劳夫K-L、沃尔什-哈达玛WHT、小波WT
混合编码：矢量量化编码、子带编码SBC

根据图像的光谱特征划分：单色图像编码、彩色图像编码、多光谱图像编码

根据图像灰度划分：多灰度编码和二值图像编码

预测编码根据预测值是否是线性的：线性预测和非线性预测
根据预测样本是同一帧：帧内预测编码和帧间预测编码
是否有误差：无损预测编码和有损预测编码（DM增量调制、DPCM差分脉冲编码、ADPCM自适应差分脉冲编码）

2.统计编码

2.1.香农-费诺编码

2.2.霍夫曼编码

2.3.算术编码

2.4.游程编码

2.5.字典编码

3.预测编码

3.1.无损预测编码

3.2.有损预测编码

4.变换编码

4.1.变换编码的原理

4.2.离散余弦变换编码

4.3.小波编码

5.其他编码

5.1.矢量量化编码

5.2.子带编码

6.视频编码

6.1.帧内预测编码

6.2.帧间预测编码

7.数据压缩标准

7.1.静态图像压缩编码标准

静态图像压缩标准：JPEG、JPEG2000

JPEG：ISO和CCITT。8点DCT结构，离线余弦变换、量化、行程（RLE，交流系数Z字排列）和霍夫曼编码或算术编码等。离散余弦变换为主的区块编码。无损2:1，有损20:1或者25:1。DPCM直流系数。
8X8分块;正向离散余弦变换(FDCT);量化(quantisation);Z 字形编码(zigzag scan);使用差分脉冲编码调制(DPCM)对直流系数(DC)进行编码;使用行程长度编码(RLE)对交流系数(AC)进行编码;熵编码(Huffman 或算术);组成位数据流。
ISO和IEC。适用于灰度图、真彩图。变换、量化、熵编码的步骤。

JPEG2000：ISO 1999年，ISO和IEC。离散小波变换为主的多解析编码。特点：高压缩率、无损压缩、渐进传输、感兴趣区域压缩、图像处理简单等。
ISO和IEC。适用于二值图、灰度图、伪彩图、真彩图。兴趣区（ROI）编码。

JPEG：24位真彩色或灰度图像格式，不支持伪彩色格式。DCT有损或DPCM无损。
GIF：8位伪彩色，LZW编码。
PNG：真彩色、伪彩色都支持。LZ77算法派生出来的DEFLATE无损压缩编码。

7.2.音频编码标准

MPEG-1

mpeg-1 layer1：384kb/s。小型数字盒式磁带DCC。
mpeg-1 layer2：256~192kb/s。数字广播声音DBA、数字音乐、CD-I、VCD。
mpeg-1 layer3：64kb/s。ISDN上的声音传输。自适应感知熵编码。mp3。

MPEG-2

两种格式
MPEG-2 Audio（MPEG-2多通道声音）
MPEG2-AAC（先进的音频编码，与MPEG-1声音格式不兼容）

MPEG-4和MPEG-7

其他

150推出H系列标准

1.CCITT的G系列标准
ITU-T G系列标准

电话(200~3.4kHz)语音压缩标准。主要有ITU的9.722(64kb/s)、9721(32kb/s)、9.728 (16kb/s)和9.729 (8kb/s)等建议，用于数字电话通信。
调幅广播(50Hz~7kHz)语音压缩标准。主要采用ITU的9.722(64kb/s)建议，用于优质语音、音乐、音频会议和视频会议等。
调频广播(20Hz~15kHz)及CD音质(20Hz ~ 20kHz)的宽带音频压缩标准。主要采用MPEG-1或MPEG-2 双杜比 AC-3 等建议，用于 CD、MD、MPC、VCD、DVD、HDTV和电影配音等。

3.AC-3编码标准
杜比DOLBY实验室1992年。5.1声道，320kb/s。美国HDTV音频系统，最新DVD。

7.3.视频编码标准

视频编码标准：H261、H263、MPEG标准（包含1，2，4）

ITU-T标准：H.26x
H.261（Version1）。H.261：电视电话。YCbCr颜色空间。
H.261（Version2）
H.263。IP视频通信采用最多。
H.263+
H.263++

视频格式	图像亮度分辨率	图像色差分辨率	H.261是否支持	H.263是否支持
SQCIF	128*96	64*48	√	√
QCIF	176*144	88*72	√	√
CIF	352*288	176*144	√	√
4CIF 或者4SIF 625	704*576	352*288	×	√
16CIF	1408*1152	704*576	×	√
SIF 525	352*240
4SIF 525	704*480

ITU-T/MPEG标准
H.262/MPEG-2
H.264/MPEG-4 AVC

MPEG标准：MPEG-x ，动态图像专家组MPEG
MPEG-1：1.5Mb/s。数字电视标准。数据压缩标准。被应用在VCD中。
MPEG-2：100Mb/s。数字电视标准。数据压缩标准。SDTV和HDTV的编码标准，DVD的编码标准。
MPEG-4：数据压缩标准。内容管理。网络多媒体应用。
MPEG-7：多媒体内容描述接口。内容管理。
MPEG-21：多媒体框架标准。内容管理。

口诀

【空时结知视】【相统听熵】（数据余类型：空间冗余、时间冗余、结构冗余、知识冗余、视觉冗余、图像区域的相同性冗余、纹理的统计冗余、听觉冗余、信息熵冗余（编码冗余））

【有损预变分模其】（有损编码：预测编码、变换编码、分形编码、基于模型编码、其他编码）

【编熵预变混】（根据编码原理划分：统计编码（熵编码）、预测编码、变换编码、混合编码）
【统计霍算香游字】（统计编码（熵编码）：霍夫曼编码Huffman、算术编码、香农-费诺编码、游程长度编码RLC、字典编码（隐式字典和显示字典））
【预线自】（预测编码：线性预测编码DPCM、自适应线性预测编码ADPCM）
【变换傅离卡沃小】（变换编码：傅里叶变换FFT、离散余弦DCT（次最优的正交交换）、卡胡南-劳夫K-L、沃尔什-哈达玛WHT、小波WT）
【混矢子】（混合编码：矢量量化编码、子带编码SBC）

【光谱单彩多】（根据图像的光谱特征划分：单色图像编码、彩色图像编码、多光谱图像编码）
【灰多二】（根据图像灰度划分：多灰度编码和二值图像编码）
【预有增差字】（是否有误差：无损预测编码和有损预测编码（DM增量调制、DPCM差分脉冲编码、ADPCM自适应差分脉冲编码））
V D 网接框（MPEG-1，VCD。MPEG-2，DVD。MPEG-4网络多媒体应用。MPEG-7多媒体内容描述接口。MPEG-21多媒体框架标准）