监控视频压缩1—INSTANCE SEGMENTATION BASED BACKGROUND REFERENCE FRAME GENERATIONFOR SURVEILLANCE VIDEO CODI

Eva_Hua

已于 2022-01-21 17:40:25 修改

阅读量2k

点赞数

分类专栏：视频压缩 Deep Learning 文章标签：计算机视觉人工智能

于 2022-01-05 12:05:50 首次发布

本文链接：https://blog.csdn.net/whatwho_518/article/details/122298990

版权

Deep Learning 同时被 2 个专栏收录

19 篇文章 4 订阅

订阅专栏

视频压缩

13 篇文章 26 订阅

订阅专栏

本文提出一种混合监控处理框架，结合语义信息和运动信息生成高质量的背景参考帧（BRF）以优化监控视频编码。通过实例分割确定背景和前景，对背景块使用低量化参数压缩，从而降低码流。实验结果显示，该方法能有效减少比特率，提高视频压缩效率，尤其在处理复杂监控场景时表现优越。

摘要由CSDN通过智能技术生成

监控视频不同于网络视频等，其特殊性为背景区域一般不变(固定相机拍摄)，或者变化很有规律（移动相机拍摄）。本系列记录针对监控视频的视频压缩各类方法。

论文：

《INSTANCE SEGMENTATION BASED BACKGROUND REFERENCE FRAME GENERATION

FOR SURVEILLANCE VIDEO CODING》

原文链接：

yInstance Segmentation Based Background Reference Frame Generation for Surveillance Video Coding | IEEE Conference Publication | IEEE Xplore

速看创新点：

确定视频每帧的背景图，背景图的确定方法由运动信息和语义信息融合得到。之后对于每帧的背景部分使用低qp值进行压缩，其他前景目标区域正常压缩，通过这种方式降低视频的码流。

其中运动信息通过计算相邻帧CTU单元的像素差异得到，公式2；语义信息由语义分割模型得到，公式1；两者进行融合的权重，公式3；最终融合的置信度公式为4；

目录：

1. 摘要

对于监控视频系统来说，最重要的两个模块是智能分析和视频压缩。传统的监控系统中对于两项任务都是分别处理的，导致效率低下。论文提出将两项任务混合处理的方法，既能高效分析又能提高压缩效率，即提取的语义信息不仅用于智能分析任务，还可以用于构建背景参考帧（Background Reference Frame，BRF）。

本文提出的方法通过移除监控视频的背景冗余来获取高质量的BRF，其中运动度量和语义度量确保生成背景块的准确性。通过实验也证实了本文方法的有效性。

2.简介

近年来监控视频数据爆发增长，因此针对监控视频的高效编码就显得尤为重要。

帧间编码在混合编码框架中十分重要，其目的是移除相邻帧的空间冗余。在帧间编码的过程中，画面中的一些内容会由参考帧预测出来，只需要对残差进行编码即可。因此参考帧的质量会影响到视频压缩的性能。传统视频编码方法会直接利用重建帧作为参考帧，但是由于重建参考帧的多样性受限于时序上的高度相关性，并且参考帧和待编码帧之间的相似性也会受限于高速运动场景，因此合成参考帧（SRF）就被提出来解决该问题。参考论文[2]提出了一种虚拟参考帧（VRF）生成框架，通过利用帧差值技术来减轻比特流压力。此外，还有一些研究者开发面向特定场景的SRF。文献[4-7]，提出了高效的背景参考帧(BRF)优化视频编码。

现存的视频编码标准的目标是压缩一般的视频内容，因此没有很好的针对监控场景视频特性优化，这两类视频的关键不同就是背景是否剧烈变化。因此，现在针对监控视频的编码方法主要是减少背景冗余，经典的实现方式之一是引入背景参考帧，然后，现存的BRF方法主要基于稀疏背景假设，因此无法应用到稠密或超低速的背景目标。

为了生成鲁邦的BRF，可以处理复杂的监控场景，本文提出了拥有语义信息的结构BRF。本文主要的贡献有：1，提出了混合监控处理框架用于高效视频压缩和智能分析，其中语义信息可以用于视频压缩和视频分析任务；2，基于实例分割提出生成高质量的BRF。不同于一些利用运动信息的方法，本文是从语义视角提升BRF质量，同时融合语义线索避免错误的背景块选择。

3.监控视频编码中的BRF

早前的学者探索研究BRF来移除监控视频中的背景冗余。比如直接选择一个固定的重建帧作为BRF，[4]首先将微块MBs拆分为背景MBs和前景MBs，并且选择背景MBs作为BRF。但是由于前景目标的存在，选择特定帧作为BRF很难描述整个背景。为了解决整个问题，有人提出了基于BRF的背景建模，具体是通过前几帧来合成虚拟的背景。[5]提出了生成BRF来利用重建帧，使用GMM来对背景进行建模。生成的背景图会进一步被编码来确保连续帧有效的背景预测。考虑到背景图的高质量编码会引起比特率激增，对于视频编码和传输都是挑战。

4.本文方法

4.1 混合监控处理框架

传统的视频编码和监控视频分析是完全独立的两个流程，相互之间信息并不交互。

为了解决该问题，本文提出混合处理框架，具体的方法如图2所示，由视频压缩流和智能分析流两部分组成。其中语义提取模块提取需要的信息比如前景目标，之后分析模块进行分析任务。该方法的优势是：用于分析任务的特征是基于原始帧提出的，因此可以避免视频压缩引入的信号失真等。

对于视频压缩流，基于BRF的实例分割是通过原始视频帧和语义分割的前景掩膜生成的，通过引入语义信息，提出的BRF对于复杂场景更加鲁邦并且可以更准确的背景预测。

4.2 基于实例分割的BRF

图3是提出的BRF框架，待编码帧Ft进行实例分割生成前景掩膜Mt, Ft的单个单元（coding tree unit, CTU）需要检测是否为背景块，该检测过程需要用到运动信息和语义信息，检测后将该CTU标记是否为背景块。对于检测到的背景块使用更大比例的压缩，非背景块正常压缩。在解码端，IDR帧作为初始的BRF（Fbrf），解码后的背景CTU用来更新Fbrf中对应的块。

4.2.1 生成前景掩膜

使用Mask R-CNN进行像素级实例分割，前景目标根据需要设定，这里考虑和人相关的目标(HRO)和车相关目标(VRO)，HRO包括人和人相关物品：背包、雨伞等。VRO包括常见交通工具：轿车、自行车和货车。按照下面规则生成像素级掩膜，Mt(i)是i位置掩膜值。

4.2.2 背景块检测

生成前景掩膜后，需要融合运动信息和语义信息来生成背景块。

1）运动信息：运动信息检测稳定内容的区域，通过计算相邻帧之间相同区域的差异得到，MMKT表示FT帧的第K个CTU单元的运动信息值，计算公式如下

上式中FKT(i)和FKT-1(i)指的是FT和FT-1的第K个CTU单元的像素值，所以N是当前CTU单元的像素数量。一般来说，低速运动目标区域应被划分为背景块。由于运动信息无法区分真正的低速目标和真实的背景区域，所以使用运动信息直接生成BRF会引入噪声，因此需要进一步考虑语义信息。

2）语义信息：语义信息对运动信息进一步补充。由于一些静止的区域不一定是背景：比如坐着的人、停着的汽车，这一类慢速运动目标需要从BRF筛掉。SMKT表示FT帧中的第K个块的语义信息，计算公式如下：

其中MKT(i) 指的是MT中的第K个块的第i个像素位置的值，Wh和Wv分别是HRO块和VRO块的权重参数，本实验为8和4。其中,Wh大于Wv是因为人通常移速慢容易被误识别为背景，所以权重更大。

计算运动信息和语义信息之后，每个块的背景置信度(BC) 使用下面公式计算：

上面公式中BCKT指FT的第K个CTU的BC值。对于BCKT大于某阈值的CTU单元会被标记为背景。此外，一帧当中的最多1/10的CTU块会被标记为背景避免比特激增。如果背景候选块超过了该值，只有最大的BC值的块会被标记为背景。

4.2.3 背景块压缩

检测到的背景块使用低QP值压缩，其他区域使用正常QP值压缩。此外，使用论文[7]的策略提供BRF作为编码阶段的额外参考帧。每个CTU需要传输一个标志位表示是否是背景块，重建的背景块不仅用于重建当前帧，还用于更新BRF对应快。

5. 实验结果

论文提出的BRF在HM16.6中实现，并附加到RPS中作为额外的参考帧。实验使用QP={22,27,32,37}，测试数据使用了11条监控序列，时长20秒。

表1是添加BRF后的BD-Rate结果，可以看到本文提出的BRF显著的减少了比特率。在LDB配置下，Y、Cb、Cr的BD-Rate分别减少为29.0%、29.0%和26.8%，LDP配置下Y的BD-Rate平均减少为27.3%、27.4%、25.8%。

表2是本文和目前最优的论文[7]的方法对比，可以看到能进一步减少比特率。

Fig.4是生成的背景帧的一些主观结果，第一行是其他方法的结果，第二行是本文方法的结果，可以看见其他方法生成的背景帧还含有前景物体，本文方法可以去除这些前景物体。

Eva_Hua

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
0
评论
监控视频压缩1—INSTANCE SEGMENTATION BASED BACKGROUND REFERENCE FRAME GENERATIONFOR SURVEILLANCE VIDEO CODI

原文链接：摘要对于监控视频系统来说，最重要的两个模块是智能分析和视频压缩。传统的监控系统中对于两项任务都是分别处理的，导致效率低下。论文提出将两项任务混合处理的方法，既能高效分析又能提高压缩效率，即提取的语义信息不仅用于智能分析任务，还可以用于构建背景参考帧（Background Reference Frame，BRF）。本文提出的方法通过移除监控视频的背景冗余来获取高质量的BRF，其中运动度量和语义度量确保生成背景块的准确性。通过实验也证实了本文方法的有效性。简介近年来监控视频数据
复制链接

扫一扫