图像压缩的基本理论起源于20世纪40年代末香农(Shannon)的信息理论。香农定理表明,在不产生任何失真的前提下,通过合理的编码,对于每一个信源符号分配不等长的码字可以任意接近于信源的熵。在这个前提下出现了几种不同的无失真信源编码方法,如huffman编码、算术编码、词典编码等,这些方法可以应用于一幅数字图像,能获得一定的码率压缩。但是无失真压缩是很有限的,对较复杂的自然图像,压缩率一般不超过两倍。
本章从实践角度出发,首先介绍图像压缩的基本方法以及在工程实践中的压缩标准;其次,介绍有关MATLAB小波工具箱中的压缩函数,并且将不惜篇幅地列举压缩的算例供读者参考;最后,介绍利用小波分析进行图像压缩的综合实例。
学习目标:
(1)了解小波压缩的原理和方法
(2)熟练掌握MATLAB中小波压缩函数
(3)熟练掌握二维小波工具箱对图像压缩
14.1 图像压缩介绍
与图像去噪相似,压缩领域中由于小波的特殊优点,应用其进行压缩也受到了许多学者的重视,并获得了非常好的效果。
14.1.1 数据冗余
图像压缩所要解决的问题是尽可能减少表示数字图像需要的数据量。减少数据量的基本原理是除去其中的多余数据。以数学的观点来看,这一过程实际上就是将二维像素阵列变换为一个在统计上没有关联的数据集合。
这种变换在图像存储或者传输之前进行,在以后的某个时候,再对压缩图像进行解压来重构原图像或原图像的近似图像。
数据是用来表示信息的,如果不同的方法为表示给定量的信息使用了不同的数据量,那么使用较多数据量的方法中,有些数据必然是代表了无用的信息,或者是重复地表示了其他数据已经表示了的信息,这就是数据冗余的概念,它是数据压缩中的关键。
在数字图像压缩中,有3种基本的数据冗余:
(1)编码冗余;
(2)像素间冗余;
(3)心理视觉冗余。
如果能够减少或者消除其中的一种或者多种冗余,就能取得数据压缩的效果。
1.编码冗余
对图像编码需要建立码本以表达图像数据。这里的码本是指用来表达一定量的信息或者一组事件所需的一系列的符号(如字母、数字等)。其中对每个信息或时间所赋的码符号序列称为码字,而每个码字的符号个数称为码字长度。
我们以一幅256×256的8位灰度图为例:其每个像素的灰度值在0~255之间,设k表示0~255之间的灰度值,Nk表示灰度值为k的像素总个数,N为图像的总像素数,P(k)表示像素灰度值为k的像素出现的概率:P (k)=N (k)/N,k∈[0,255]。
设用来表示灰度值k的每个数值的比特数是L(k),那么为表示每个像素所需的平均比特数是:
最简单的二元码本成为自然码。对每个信息或事件所赋的码是从2m
个m bit的二元码中选出来的一个。如果用自然码表示一幅图像的灰度值,则由上式得出平均码长为m。
根据上式,如果用较小的比特数表示出现概率较大的灰度级,而用较多的比特数表示出现概率较小的灰度级,就能达到数据压缩的效果。这种压缩常称为变长码。如果编码所用的码本不能使式达到最小,则说明存在编码冗余。
一般来说,如果编码时没有充分利用编码对象的概率特性就会产生编码冗余。
2.像素间冗余
在图像中,像素间的冗余通常称为空间冗余或者几何冗余。各像素之间的值可以比较方便地由其临近的像素表示出来,每个独立的像素所携带的信息相对较少。换句话说,单个像素对图像的视觉贡献有很多是冗余的,因为常能用基于其临近像素的值来推断。
为了减少图像中的像素冗余,需要将常用的2D像素矩阵表达式转换为某种更有效(但可能不直观)的表达形式。这种减少像素间冗余的转换常称为映射。如果原始图像元素能从转换后的数据集合重建出来,则这种映射称为可反转的,否则就称为不可反转的。
3.心理视觉冗余
眼睛所感受到的图像区域亮度不仅仅与区域的反射光有关,例如马赫带效应,在灰度值为常数的区域也能感觉到灰度值的变化。这种现象的产生是由于眼睛并不是对所有视觉信息有相同的灵敏度。有些信息在通常的视觉过程中与另外一些信息相比来说并不是那么重要,这些信息可以认为是心理视觉冗余的,去除这些信息并不会明显地降低所感受到的图像质量。许多称为“第二代编码技术”的方法就是基于这个原理的。
心理视觉冗余的存在是与人观察图像的方式有关的。人在观察图像时主要是寻找某些比较明显的特征,而不是定量的分析图像中每个像素的亮度,或至少不是对每个像素等同的分析。人通过在脑子里分析这些特征并与先验知识结合以完成对图像的解释过程。由于每个人所具有的先验知识不同,对同一幅图的心理视觉冗余也是因人而异。
心理视觉冗余从本质上说与前两种冗余不同,它是与实在的视觉信息联系着的。只有在这些信息对正常的视觉来说并不是必不可少的时候才可能被去除。因为去除心理的视觉冗余数据能导致定量信息有损失,所以量化是不可逆转操作,它用于数据压缩会导致有损压缩。根据心理视觉冗余的特点,可以采取一些有效的措施来压缩数据量,电视中的隔行扫描就是一个例子。
14.1.2 变换编码
由上一小节所描述的图像数据存在很多冗余,但是如果直接在空域直接处理比较困难,通常通过变换将图像数据从空域变换到变换域,对变换域进行处理。
对变换的要求通常是要将强相关的空间域的数据映射到完全不相关的、能量分布集中的变换系数矩阵,占少数的大的变换系数代表了图像的最主要的能量成分,占多数的小的变换系数表示了一些不重要的细节分量。同时变换要能够容易的与人们关于人类视觉系统的知识相结合,以有效地取出视觉冗余,尽可能地保留重要视觉信息。
具备最理想的去相关和能量集中紧致性最强的变换是KL变换,但是KL变换的复杂性使得其应用不现实。由于DCT变换能够很好地逼近KL变换,同时运算比较简单,因此DCT广泛地应用于图像压缩,一直成为变换编码的主要工具,例如JPEG标准就是采用的DCT变换。
20世纪80年代后期,小波变换的发展提供了一种新的变换工具,小波变换能够适应现代图像压缩所需要的如多分辨率、多层质量控制等要求,在较大压缩比下,小波图像压缩质量明显好于DCT变换,因此在新的JPEG 2000标准中也采用了小波变换作为核心算法。
14.1.3 图像压缩模型
现在我们来介绍一个通用的图像压缩编码模型,如图14-1所示。
图14-1 通用压缩编码模型
图像压缩目的是减少或消除图像中的编码冗余、像素间冗余及心理视觉冗余。在图像压缩系统中,映射器将输入数据变换以减少像素间冗余。这个操作一般是可以逆转的,它可以直接减少也可以不直接减少图像数据,这与具体编码技术有关。变换编码中的变换算法就是一种映射器,通过某种数学变换将图像数据从一个域转换至另一个域,以使图像从复杂的表示变成一种更简单的或者说是具有更好统计特性的表示,减少数据的相关性。
量化器根据给定的保真度准则减少映射器输出的精确度。这个操作可以减少心理视觉冗余,但是不可反转,所以不可用在无损压缩中。符号编码器产生表达量化器输出的码本,并根据码本映射输出。一般情况下采用变长码来表达映射和量化后的数据。它通过将最短的码赋给最频繁出现的输出值以减少编码冗余。这个操作是可以反转的。
需要指出的是,不是所有的图像压缩编码器都一定包含以上 3个子模块。例如无失真信源编码器就不能有量化器,另外有些压缩技术常把上述物理上可分离的子模块结合起来。
14.1.4 图像压缩技术
对声音、图像、视频等多媒体信息的压缩有两条思路,要么采用成熟的通用数据压缩技术进行压缩,要么根据媒体信息的特性设计新的压缩方法。
GIF是使用通用压缩技术压缩图像信息的最成功的例子之一,它使用LZW压缩算法,可以把原始图形文件以非常小的数据量存储,可以在同一个文件中存储多幅图像从而实现动画效果。
GIF文件中除了经过LZW压缩的像素信息以外,还保存有图像的各种属性信息以及图像所使用的调色板信息等。GIF 精确地保留了原始图像的每一个像素信息,是无损图像压缩的代表。因为GIF的成功,直到现在这种格式仍然广为应用。
根据媒体特性量身定制的压缩方法中,行程编码(Run-Length Encoding,RLE)是最为简单、最容易被想到的一种。大多数计算机中产生的图像(和现实世界的图像例如照片不同)都具有着大面积重复的颜色块,可以用一个颜色值加一个重复次数来表示这一块图像,冗余度由此减小了,这就是RLE方法的基本思路。但是,它不适于用来压缩照片、声音等连续重复信息很少的数据。RLE方法最有代表性的实现有PCX和TIFF图形格式,其最为成功的应用领域是传真机中传真图像的压缩。
20世纪70年代末80年代初,人们逐渐意识到,对大多数灰度或是彩色图像乃至声音文件,没有必要忠实地保留其所有信息,在允许一定的精度损失的情况下,可以实现更为有效的压缩方法。到20世纪80年代末,许多人已经在这一领域取得了不小的成果,设计出了一批压缩效果较好的声音和图像压缩算法。
在此基础上,国际标准化组织(ISO)和CCITT联合组成了两个委员会:静态图像联合专家小组(JPEG)和动态图像联合专家小组(MPEG)。JPEG的压缩目标是静止图像(灰度的和彩色的),MPEG的目标则是声音和视频。但他们的基本思路是完全一样的,即保留媒体信息中最有规律、最能体现信息主要特征的数据,而略去其他不重要的数据。他们都取得了令人赞叹的成就。
JPEG(Joint Photographic Experts Group)是在国际标准化组织(ISO)领导之下制定静态图像压缩标准的委员会。第一个国际的静态图像压缩标准——ISO 109110-1(JPEG)就是该委员会制定的。
由于 JPEG 所具有的优点,它在短短几年内获得了极大的成功
第14章 小波分析用于图像压缩
最新推荐文章于 2024-09-30 13:59:52 发布