图像压缩领域的最新进展之一是 JPEG AI 标准的开发 ,这是由联合图像专家组(JPEG)正在开发的一种先进图像压缩标准。与 JPEG、JPEG 2000 和 JPEG XL 等传统基于变换的编解码器不同,这个新标准采用基于深度学习的图像编码技术来学习最优的编码和解码策略。通过利用神经网络驱动的模型,JPEG AI 在保持卓越视觉保真度的同时实现了更高的压缩效率,标志着向人工智能驱动的端到端图像压缩的变革性转变。
JPEG AI 标准化的目标 是创建一个基于学习的图像编码标准,提供单流、紧凑的压缩域表示,既适用于人类可视化,也能在图像处理和计算机视觉任务中发挥高效性能,目标是支持免版税的基线标准。标准化过程分为两个版本,其中版本 1 侧重于高感知质量和保真度,通过熵解码和从潜在张量表示进行图像合成来重建图像,这也是目前的主要目标。JPEG AI 第 1 部分(核心编码引擎)的国际标准(IS)已进入发布阶段 ,即将发布。同时,JPEG AI 的配置文件和级别(第 2 部分)、参考软件(第 3 部分)、一致性测试(第 4 部分)和文件格式规范(第 5 部分)的相关工作也在进行中。JPEG AI 采用多分支解码框架 ,允许以多种方式重建单个码流,每种方式在复杂度和质量之间有不同的权衡。这种适应性确保了在多种设备和应用中的广泛支持。在熵解码获取量化残差样本并重建潜在样本后,核心解码引擎定义了三种合成(逆)变换,每种变换都能够生成重建图像。此外,仍在开发中的一致性测试探索了在不需要比特精确重建的情况下进行符合标准解码的可能性。通过支持多种合成变换并在重建精度上提供灵活性,JPEG AI 使供应商能够优化实现方式,以最适合其设备能力和应用需求。
图1. JPEG AI编码器和解码器架构(蓝色模块对应神经网络)。
编码过程
- 颜色转换:源图像(Source Image)首先进入颜色转换(Color Conversion)模块,转换为 JPEG AI 编解码器内部支持的 BT.709 标准定义的 YUV 颜色空间 。
- 分析变换:转换后的图像进入分析变换(Analysis Transform,ID = 0, 1 )模块,利用卷积和非线性激活层对源图像进行去相关,生成潜在表示 y 。
- 潜在域预测与超编码:潜在表示 y 进入潜在域预测(Latent Domain Prediction)模块。同时,y 还会进入超编码器(Hyper - encoder)生成非常紧凑的超张量 z 。
- 算术编码:超张量 z 被量化为ˆz ,通过算术编码器(Arithmetic Encoder),结合从训练模型获得的 stream - z 概率模型进行压缩,生成流 z 。潜在域预测模块计算残差 r ,残差 r 使用从超尺度解码器导出的 stream - r 概率模型,通过算术编码器进行编码,生成流 r 。
解码过程
- 算术解码:接收到的流 z 和流 r 分别进入算术解码器(Arithmetic Decoder)。超尺度解码器(Hyper - scale decoder)为流 z 的算术解码提供参数,恢复超张量ˆz ;为流 r 的算术解码提供参数,恢复残差 r 。
- 潜在域预测:利用ˆz、超解码器和多级上下文模型进行潜在域预测,得到潜在表示ˆy 。
- 合成变换:潜在表示ˆy 进入合成变换(Synthesis Transform,ID = 0, 1, 2 )模块,输出解码图像的初步形式。
- 滤波与颜色转换:经过滤波器(Filters)处理后,再通过颜色转换(Color Conversion)模块,最终得到解码图像(Decoded Image)。
JPEG AI 编码器和解码器的高