《M-LVC: Multiple Frames Prediction for Learned Video Compression》
代码:https://github.com/JianpingLin/M-LVC_CVPR2020
论文:https://arxiv.org/abs/2004.10290
论文的核心贡献:
1,引入多参考帧,而不是单一参考帧。
2,原始的视频压缩(DVC)压缩的是:运动向量+残差,本文(M-LVC)压缩的是:运动向量变化量(MVD) +残差,这里的运动向量变化量就是由引入的多参考帧决定的,这个压缩量要比直接压缩运动向量小。
3,网络训练流程:由于本文新加的小网络很多,所以训练流程至关重要。
STEP1 训练:运动估计网络 + 运动补偿网络——> STEP2 训练:加入MVD编码-解码网络 + 残差编解码网络, [固定:运动估计网络 + 运动补偿网络]——> STEP3 训练:MVD编码-解码网络 + 残差编解码网络 + 运动估计网络 + 运动补偿网络——> STEP4训练:MAMVP-Net [固定:STEP3的4个网络]——> STEP5训练:运动向量矫正网络 [固定:STEP4的5个网络]——> STEP6训练:残差矫正网络 [固定:STEP5的6个网络]——> STEP7训练:全部微调网络模块微调。
摘要
视频压缩方法DVC在预测当前帧时主要参考帧只选择了前面的一帧,本文的方法考虑前序多帧作为参考帧。所以当有多帧作为参考帧时相比单帧作为参考帧就能有更精确的预测结果,并且有更少的残差冗余。此外,采用多帧作为预测帧 还可以帮助运动向量(缩写MV)预测,也可以减少运动向量的预测。本文作者使用两个深度自编码器来分别压缩残差和运动向量。为了补偿自编码器的压缩误差,作者进一步设计了一个运动向量矫正网络和残差矫正网络,很好的利用了多个参考帧。本文框架的所有模块都是通过独立的rate-distortion 损失函数联合优化,并使用了一个端到端的训练策略来优化整个框架。实验表明结果在PSNR和MS-SSIM两个指标上都优于H.265.
——充分的利用时序上尽可能的多的信息,即可以预测的更准,还可以压缩的更小。
1 简介
2017年网络上视频数据占据总量的75%,2022年即将占据82%,视频压缩迫在眉睫,目前常用的视频压缩方法是H264 和H265,更新的标准H266也即将问世,新的标准在拥有更优秀的压缩比同时,编码也更加复杂。这些传统的压缩方法都使用相同的框架:比如运动补偿预测,基于块的变换,人工设计的熵编码等。所以这些框架的深入研究也接近饱和。
最近,基于深度学习的视频压缩方法涌现出来,这些方法根据目标场景可以分为两类,第一类方法有:Wu et al[32]提出使用基于RNN的方法来进行基于插值的视频压缩,运动信息使用传统的运动估计等方法; 随后,Djelouah et al[8]也提出了基于插值的视频压缩方法,插值模型结合了运动信息压缩和图像合成,并且使用相同的自编码器用于图像和残差的压缩。这一类基于插值的压缩方法使用前序和后续帧,更适合于类似于视频回放等随机访问场景,但是,对于低延时场景比如实时转播/现场直播等并不太适用。
第二类方法:低延时场景,并且使用极少的前序帧。比如 Lu et al. [15]提出的DVC,第一篇端到端的视频压缩模型联合学习了运动估计、运动压缩、运动补偿和残差压缩函数。DVC只使用了一个前序帧计算运动补偿,视频中的时序信息的利用不够充分。 Rippel et al [19]提出了另一个视频压缩模型,使用潜在状态来记忆前序若干帧的信息,但是由于潜在状态的存在,模型较难训练并且对于转移误差很敏感。
因此,本文旨在解决低延时场景的视频压缩问题,并提出了一个端到端的视频压缩框架,核心思想是利用前序多帧作为参考帧,相比于DVC,只使用了前序的一帧作为参考帧,使用多帧作为参考帧提高了两方面的增强效果。第一,给定多参考帧并且联合多个运动向量,对当前帧的预测就有更多的可能性,第二,给定多个运动向量信息,就可以更准确的推断之后的运动向量;这样对运动向量预测就可以有减少运动向量的编码。因此,我们的方法叫做视频压缩多帧预测。相比[19],是对前序多帧信息隐式的利用来预测当前帧。本文,是用显式的方式利用前序多帧。该框架可以更灵活的使用前序帧(根据需要使用较多较少的前序帧),并且具有更好的可解释性(可以通过运动补偿实现预测)根据观测更易训练。
此外,在本文的框架中,设计了运动向量矫正网络和残差矫正网络。由于使用深度自编码器来压缩运动向量,压缩是有损的,并且会在运动向量解码的时候产生误差,运动向量矫正网络可以用来补偿压缩误差和增强重建质量。在残差矫正网络中利用了多个参考帧联合多个运动向量,在运动矫正网络中利用多个参考帧或者多个运动向量。
本文的贡献包括:
- 端到端的视频压缩中引入四个有效的模块:基于多帧的运动向量预测模块,基于多帧的运动补偿,运动向量矫正,残差矫正
- 使用rate-distortion 损失函数和step by step的训练策略,联合优化框架的所有模块
- 在不同分辨率和不同内容的数据集上进行扩展实验,超越了现有的解决低延时视频压缩方法,在PSNR和MS-SSIM两个指标上超越H265
2 相关工作
2.1 图像压缩
最近,基于深度学习的图像压缩方法取得了很大的进展,相比主要基于手工设计的特征JPEG、 JPEG2000和BPG这类传统方法,最近的新方法尝试学习图像信息中的非线性变换来估计熵编码。在[12,25,26],基于LSTM的自编码器可以用来编码原始图像和重建图像的差异信息。除此之外,还有一些研究利用了基于CNN自编码器来压缩图像[3,4,16,24]。Ball´et al. [3] 引入一个非线性的激活函数,将diverse normalization加入到CNN的自编码器中,使用全连接网络来估计潜在表示的概率,该方法超越了JPEG2000,但是该方法没考虑输入自适应熵模型,该作者随后在[4]中引入输入自适应熵模型,通过使用0均值的高斯分布来对每个浅在表示进行建模 并且使用参数变换来预测标准偏差;最近 Minnenetal.[16]进一步提升了上述的自适应熵模型的效果,具体做法是通过加入上下文自适应模型,这些方法超越了BPG。本文中,压缩运动向量和残差的模块是基于图像压缩方法[3,4]。图像压缩模型的任何新进展可以灵活的加入本文的框架。
2.2 视频压缩
相比图像压缩的进展,最近关于视频压缩的进展要少的多。2018年,Wu et al[32]提出了基于RNN的方法用于插值的视频压缩,第一次使用图像压缩模型来压缩关键帧(I帧)。然后使用分层插值的方式来处理剩下的帧(P帧),运动信息的提取是基于传统基于块的方式,编码也使用传统的图像压缩方法,Han et al. [9] 提出使用变分自编码器来压缩序列数据。这些方法目的是将原始视频转化为低维度的表示并对这些表示使用条件概率模型进行熵编码。不过 这些方法都限于低分辨率的视频。不过上述这些方法适用于随机模式,视频回放等场景。
针对低延时场景的方法有: Lu et al. [15]提出使用CNN来替换传统视频压缩框架中的模块:运动估计,运动压缩,运动补偿和残差压缩。这些模型直接对运动信息压缩,使用前序的1帧作为运动补偿的参考帧,Rippel et al. [19]提出利用多个参考帧信息,使用潜在状态来记忆前序若干帧的信息,由于潜在状态的存在,这些模型难以训练并对转移误差敏感。本文的框架借鉴了多个参考帧来预测当前真的思想。
3 提出的方法
符号:
V = {,,...,,...} 指原始视频序列,
, , 分别指时刻t 的原始帧,预测帧,解码/重建帧,
是残差原始帧和预测帧之间的残差,
表示由残差自编码器重建的残差,
表示最终的解码残差,
为了去除视频帧间的时序冗余,使用基于光流估计的像素级的运动向量MV,
, , 分别指时刻t 的原始运动向量,预测运动向量,解码/重建运动向量,
是原始运动向量和预测运动向量之间的差异(简称MVD),
是由MVD自编码器重建的MVD,
表示通过对 ,求和的重建运动向量MV,
残差和MVD 通过自编码器转换为和,
和 分别对应和的量化版本,
3.1 本文方法概述
图1 是经典的DVC和本文方法的对比,左侧是经典DVC,右侧是本文方法,本文提出了四个新模块,都是基于多个参考帧,本文的压缩流程如下:
步骤1,运动估计和预测
当前帧和前1参考帧都进入到运动估计网络(ME-Net)用来提取运动信息,本文的ME-Net是基于光流网络FlowNet2.0[11]. 本文不同于DVC, 直接对像素级的编码,那样编码代价更高,而是提出了一个MV预测网络(MAMVP-Net)来预测当前的MV,可以极大程度的去除MV的时间冗余,后面3.2会详细介绍。
步骤2,运动压缩和改进
进行运动估计后,使用MVD编码-解码网络来编码原始的MV和预测MV之间的差异,网络结构和[3]相似,这个MVD编码-解码网络可以进一步去除的空间冗余。尤其是, 非线性映射后记为 ,然后取舍量化为, 的概率分布由[3]中的CNN进行估计。推理阶段,使用估计分布将 熵编码为比特流,对使用非线性逆变换,就可以将 可以通过熵编码重建,由于量化的存在 尤其是低比特率的量化,解码后的 会存在误差,因此本文使用MV矫正网络(MV Refine-Net) 来减少量化误差并提高质量,之后,将矫正后的运动向量 送入解码运动向量的缓存中用于下一帧的编码,后面3.3详细介绍细节。
步骤3,运动补偿
重建运动向量后,使用运动补偿网络(MMC-Net)来获取预测帧。这里不像DVC仅仅使用1帧作为运动补偿的参考帧,本文的MMC-Net通过使用多参考帧生成更精确的预测帧,后面3.4会详细介绍。
步骤4,残差压缩和矫正
运动补偿后,需要使用残差编解码网络来对原始帧和预测帧之间的残差进行编码。网络架构和[4]相似,残差编解码网络通过非线性变换可以进一步去除残差空间冗余,DVC中也使用该策略,和压缩相似,残差 首先也是非线性变换为,然后量化为 ,的概率分布由[4]中的CNN进行估计。推理阶段,使用估计分布将 熵编码为比特流,对使用非线性逆变换,就可以将 可以通过熵编码重建,由于量化的存在,解码后的 会存在误差,因此本文使用残差矫正网络((Residual Refine-Net) 来减少量化误差并提高质量,后面 3.5 详细介绍细节。
步骤5,帧重建
在残差矫正后,可以通过对解码后的残差和预测帧求和得到重建帧 ,之后为了计算下一帧缓存重建帧 。
——M-LVC最大的改进有两点, 1 是考虑前序若干帧,2 是残差矫正网络和运动向量矫正网络,这两点都很重要。
3.2 多尺度校准运动向量预测网络
为了解决帧间较大和复杂的运动现象,提出了多尺度校准运动向量预测网络(MAMVP-Net),如图2所示。使用前三个时刻的运动向量,,, 来预测运动向量 。 是否使用更多或者更少的前时刻运动向量取决于运动向量解码器的缓存大小。
如图2(a)首先对每个前时刻的重建运动向量生成多级特征金字塔,这里使用多尺度特征提取网络,如果使用四个层级如下所示:
其中表示在第l级别的特征。第二,考虑到前时刻重建运动向量包含压缩误差,我们尝试对和进行变形(warp),
其中 和 表示 在l级别变形(warped)后的和特征, 和 分别是和在l层级上下采样的结果,warp是指双线性插值变形(warping)。类似在特征域进行的变形在之前的类似工作中很有效,比如文章[17] 是视频帧的插值,文章[23]是生成光流。第三,基于特征金字塔和变形后的特征金字塔和 ,从粗糙到精细的来预测当前运动向量。如图2(b),在l级上预测的运动向量 和预测特征 可以通过下面公式得到:
其中 和预测特征 是在l+1级上 2倍上采样的运动向量,重复上述操作直到达到期望的层级,得到最终的预测运动向量
3.3 运动向量校正网络
MVD压缩后,可以通过在预测的运动向量 上加上解码器MVD 得到重建运动向量 。 但是 包含了量化引起的压缩误差,尤其是低比特率时,比如,我们发现 里有很多0,0MVD就可以用更少的比特来量化,相似的问题在DVC中压缩运动向量时也会出现,但是类似的0MVD就会导致不准确的运动补偿。因此,本文使用MV矫正网络(MV Refine-Net) 来减少压缩误差并进一步提升重建的运动向量的准确度,如图1(b)中,使用前序的三帧重建运动向量,和, 和参考帧 来矫正。使用前序多个重建的运动向量就可以得到更加精确预测的当前运动向量,从而帮助更好的校准。使用 的原因是遵循运动补偿模块会依赖 和来获取当前运动帧,所以 可以指导校准。通过我们4.3节的实验结果,通过将加入运动向量校准网络可以提升压缩效果。
3.4 拥有多参考帧的运动补偿网络
在传统的视频编码框架中,H.264/AVC使用多个参考帧进行运动补偿。比如,一些编码模块使用不同的参考帧中得到的不同的运动补偿预测加权后,可以有效提升压缩效率。此外,在最近的视频超分工作中,多帧方法相比单帧[10,14,29]的效果也更好,因此,本文提出使用多参考帧进行运动补偿。
网络结构如图3,这里我们使用四个参考帧:,,和 来获取当前预测帧 ,可以选择更多或者更少的前序帧,这依赖于解码帧缓存的大小,首先,我们使用2层的CNN来提取每个参考帧的特征。然后,对提取的特征和 使用下面的公式进行warp
其中 是warped后的结果, 是 warp后的特征。最终,如图3 , warp后的特征和帧输入CNN后获取预测帧:
其中,上面的网络基于U-Net结构,并且结合多个残差块。
3.5 残差矫正网路
对残差压缩后,重建残差 包含了压缩误差,尤其是低比特率的压缩误差。本文提出残差矫正网络来减少压缩误差并且提高质量,如图1(b),该模块利用了四个参考帧,,和和预测帧来矫正。
3.6 训练策略
损失函数:我们训练框架的目标是联合优化编码字节大小和原始帧和重建帧之间的形变误差,我们使用如下的损失函数用于训练:
上式中 是原始帧和重建帧之间的形变误差。这里使用均方误差MSE作为误差的衡量准则。 和 表示用于编码运动向量差值(MVD) 和残差 的比特率。训练中,我们并没有进行真实的编码而是对 量化表示 和的信息熵进行比特率估计,这里使用[3]和[4]中的CNN 来分别估计 和的概率分布,然后获取对应的信息熵。由于 和 是量化版本,而量化操作无法区分,这里使用[3]中的方法,其中在训练中,量化操作由增加均匀噪声来替换。
渐进式训练:这里尝试过训练整个框架中所有网络,除了ME-Net随机初始化(ME-Net 使用FlowNet2.0进行初始化)。效果并不好,比特率并不均衡:MVD网络比特率太小,而残差比特率太大,因此压缩效果不好(具体结果参考4.3章节)。为了解决这个问题,使用渐进式训练策略。首先,只训练整个框架中的运动估计网络ME-Net和运动补偿网络MMC-Net, 其中运动估计网络使用[11] 中的预训练模型并且保持不变。然后,加入MVD编码-解码网络和残差编解码网络,这时候,上一步训练的运动估计网络ME-Net和运动补偿网络MMC-Net 保持参数不变。之后,上述所有的四个模块联合训练。 之后,逐个增加多尺度校准运动向量预测网络 MAMVP-Net, 运动向量矫正网络 和 残差矫正网络 ,此时固定先前的训练模块同时训练新的模块,之后对全部的模块进行微调。 整个流程如下:
STEP1 训练:运动估计网络 + 运动补偿网络——> STEP2 训练:加入MVD编码-解码网络 + 残差编解码网络, [固定:运动估计网络 + 运动补偿网络]——> STEP3 训练:MVD编码-解码网络 + 残差编解码网络 + 运动估计网络 + 运动补偿网络——> STEP4训练:MAMVP-Net [固定:STEP3的4个网络]——> STEP5训练:运动向量矫正网络 [固定:STEP4的5个网络]——> STEP6训练:残差矫正网络 [固定:STEP5的6个网络]——> STEP7训练:全部微调网络模块微调。
4. 实验
4.1 实验设置
训练数据: 训练集使用Vimeo-90k[33], 将该训练集处理为192*192大小,每段16帧的数据。
实验细节:本实验中,使用IPPP...编码结构,所有的P帧使用相同的网络压缩,I帧使用H.265压缩,对于前三个P帧,参考帧小于四个,我们对最远的参考帧进行复制,以达到4个参考帧。使用不同的 值(16,24,40,64)得到不同的编码率,使用momentum 0.9的Adam优化器,初始学习率设置为5e-5 用来训练新增加的网络模块,使用1e-5用来微调网络模块。Batchsize设为8。
测试集:HEVC 通用测试集,包含16端不同分辨率的视频,以及UVG数据集中1080P分辨率的7段序列。
实验度量:PSNR和MS-SSIM都用来评价重建帧相比原始帧的质量效果,每像素字节数bpp用来评价MVD和残差编码的字节数。
4.2 实验结果
为了展示提出框架效果,比较DVC[15], Wu ECCV2018 [32], H264, H265,其中DVC[15]在低延时模式的视频压缩方案中PSNR表现最好。
4.3
参考帧数目的影响:
上图是参考帧数目的影响,本文选择4个参考帧为默认,4个参考帧也是H265参考帧数量默认值,可以看到越多的参考帧效果越好,但是差距也在减小,而且越多的参考帧意味着更大的缓存和计算量(比如2-3帧,3-4帧之间的差距较小)。不过相比只有一个参考帧的DVC有了很大的提升。
——本文的核心提升思路:加入多参考帧
多尺度校准运动向量预测网络(MAMVP-Net):
——多参考帧最巧妙的使用方法,直接压缩运动向量差
为了评估该网络的有效性,本文进行了对比试验。选的基线网络是只有一个参考帧的ME-Net,和MC-Net,以及运动向量和残差编解码网络,图6的绿色曲线,在基线网络的基础上加上MAMVP-Net,在相同的bpp下,PSNR值提升0.5-0.7dB。
此外,为了看到MAMVP-Net效果,从图1的m-lvc大框架来看,可以直接对比MVD和MV,图7(d)就是原始的MV效果,图7(e)就是MVD的可视化结果,明显的可以看到MVD的信息要稀疏很多,所以自然可以用更小的Bit进行量化。
下图就更加直观了,右侧的MVD明显概率分布更集中,即主要分布在0-3区间,这样就更易量化。
运动向量矫正网络MV Refine-Net:
图6的天蓝线和红线显示了运动向量矫正网络加入后的效果,在高比特率时提升了0.15dB,低比特率时提升了0.4dB,也就是说在更低的比特率时这个运动向量矫正网络更有效,这和我们的直观理解也一致,毕竟低比特率存储的信息量更少,而高比特率时存储的信息量较为丰富,所以矫正网络的效果不会很明显。此外,图6的黑线是没有使用前序参考帧的矫正效果,很明显相比蓝线使用了前序参考帧进行矫正的效果要差,增加前序帧差不多能提升0.1dB。
多参考帧的运动补偿网络MMC-Net:
图6的粉色线条是将运动补偿网络MC-Net 替换为多参考帧的运动补偿网络MMC-Net的效果,差不多可以提升0.1 ∼ 0.25dB
残差矫正网络Residual Refinement Network:
图6的蓝色线比较了加入残差矫正网络效果,在低比特率有0.3dB的提升,在高比特率有0.2dB的提升,同运动向量矫正网络类似,在低比特率相比高比特率有更高的提升
——所有的矫正网络对于低比特率存储都很有效。
渐进式训练策略:
图6 的黄线是直接训练整个框架的所有网络,可以发现压缩结果很糟糕,具体就是运动向量和残差的压缩极不平衡。
编码解码时间:
使用单个Titan Xp GPU做预测,尺寸为352×256序列整体编码速度是2.7fps, 解码速度5.9fps.
5. 总结
本文提出了端到端的视频压缩框架,本文框架通过加入了多个参考帧可以有效移除运动补偿向量和运动预测向量的冗余——压缩更小。本文还提出了运动向量和残差矫正模块减小压缩误差增强重建质量——压缩更小,恢复更好,所有的模块使用一个独立的损失函数优化并且使用渐进式训练策略,后续,会尝试加入熵编码模型进一步提升压缩效率。