数字视频稳定的概念与模型

夏沫灬星河

已于 2022-08-03 11:55:32 修改

阅读量918

点赞数 2

分类专栏：图像处理文章标签：图像处理深度学习

于 2022-08-02 23:33:27 首次发布

本文链接：https://blog.csdn.net/weixin_48442236/article/details/126128430

版权

图像处理专栏收录该内容

2 篇文章 0 订阅

订阅专栏

一、基本概念

1、数字视频所面临的问题

随着智能设备的普及，我们可以在用各种各样的移动设备在不同的场景和环境进行视频拍摄。在短视频时代下，人们对于视频拍摄的需求日益增大。在需求量增大的同时，视频质量成为重点关注的对象。益于科学技术的发展，视频的清晰度也在逐步提升。但除了视频清晰度、视频内容的丰富度以外，还存在其他的因素会影响视频的质量。视频稳定程度，视频的稳定程度可以直接反应出视频的质量。例如当一个视频稳定程度十分差时，往往观众会因视频而造成头晕目眩等情况，会毫不犹豫的选择关掉或切换下一个视频，如何提高视频的稳定程度，让观众们感到舒适，是提高视频质量所要面临的问题之一。

一段视频可以看作由成千上万张连续图片组合而成的，在许多图片经过连续切换播放之后便产生了视频。而我们可以将数字图像(视频中的一张图片)作为真实世界中在一个特定位置和时间的裁剪。如图1（左）呈现，我们将视频里的特定时刻的一张图称为帧（frame）。类似地，我们可以将视频看作是一序列的帧组合而成，相邻的两帧在极短的时间与相近的位置被捕捉到视频中。因此视频会包括空间信息，通过空间信息可以反应出前景和背景对象的运动和捕捉视频设备的轨迹运动。视频稳定的方法就是通过视频反应出的空间信息对视频进行处理，从而达到稳定平滑的效果。

2、数字视频的稳定性处理

在拍摄的视频中，人们手持捕捉设备在环境的影响下可能会造成视频抖动。例如在手持相机步行拍摄时会造成相机低频下的晃动。这种情况可能在随时随处都可见。即使不是由人去采集视频时，在机器设备上也会出现不必要的抖动，例如在自动驾驶应用的车辆或是搭载摄像头的无人机。这些机器设备可能会因为环境的影响而造成采集设备晃动而降低视频的稳定程度。

图1. 左图展示了视频或照片在真实世界的裁剪，照片以方形的方式呈现。中间与右边的图片以体积的方式展示稳定与不稳定的视频。

图1为我们呈现了稳定视频（中）与不稳定视频（右）的差异，除此之外视频还可能包括聚焦问题、纹理扭曲、镜头限制引起的伪影问题或是不稳定的畸变，这些都称为“捕获失真”。主观研究表示，一个不稳定、晃动的视频是很容易让人感觉到的，因此不稳定的视频运动可能会影响用户的体验以及视频的观感。

相机运动除了影响体验外，还可能会在物体识别与运动追踪任务产生负面影响，在物体识别时，当相机稳定性较差的情况下会很大程度上降低识别率。所以了解如何计算和改变相机的运动来保持稳定非常重要。

数字视频稳定是通过平滑“摄像机的轨迹”将可能不稳定的视频转换为流畅平滑的视频。基于以上考虑，视频稳定的主要目的是补偿视频中的抖动画面，经过处理之后得到稳定的视频。从图1中我们可以看到稳定的视频会有着光滑可控的相机轨迹，所以视频稳定并不是将相机的轨迹运动全部去除，而是对抖动的部分进行处理。换而言之，视频稳定就是将抖动的部分趋于平滑来达到整体稳定效果。

视频稳定可以被运用在其他领域，例如机器人巡航和无人机，这些设备因为在特定的环境下捕获视频容易产生抖动，一般都借助于许多传感器的帮助来使视频稳定，但也会借助于生物学的稳定方法。例如蜜蜂会通过非立体的视觉来对自己的运动进行估计，。在这个意义上，通过生物学上启发可以提出解决视频稳定的方法。

二、数字相机运动的数学模型

根据相机在三维空间中的平移和旋转运动，相机通常都有6个自由度（6-DOF）。相机可以在空间中的不同位置中移动，而数字化(相机图像)的放大和缩小都可以看作是一种人为的“前移”或“后移”，例如当我们手持相机向物体慢慢靠近时，物体会根据相机的位移慢慢变大，可以视为图像的放大(Zoom-in)。同理，在远离物体时，物体随着相机位移不断缩小，则称为图像的缩小(Zoom-out)。在一个固定的位置中，相机可以根据三个轴线(X,Y,Z)进行旋转。所以平移和旋转运动可以同时进行，那么也将产生有6个参数，分别是3个平移参数，以及3个旋转参数。

本文定义相机在t张帧下的3D路径是 $C_{3D} = \left \{ H_{1}, H_{2},H_{3},......,H_{t},\right \}$ , 在第1张帧下相机的位置为 $H_{1}$ ，在第2张帧时相机的位置是 $H_{2}$ ，由此在多帧的位置可以形成相机的一条 $C_{3D}$ 路径。其中 $H_{i}$ 为4X4的矩阵，我们根据时间t时刻在全局坐标系下定义 $H_{i}$ 代表着相机在 i 时方向和位置。

$H_{i} = \begin{pmatrix} R_{i} & O_{i}& \\ 0& 1& \end{pmatrix}$ 其中 $R_{i}$ 和 $O_{i}$ 分别表示3X3的旋转矩阵(Rotation matrix)和3X1的相机平移向量(translation vector)，而第一个矩阵 $H_{1}$ 是恒等式(单位矩阵)，因为 $H_{1}$ 视为视频在拍摄时的起点，所以它表示初始参数。就如同坐标系下的原点一般。相机的相关运动 $T_{i}$ 可以被定义为 $H_{i} = T_{i} \cdot H_{i-1}$ 。如下图中的右图表示三维空间中相机路径。我们可以看作 $H_{1}$ 经过 $T_{2}$ 后变化到 $H_{2}$

图2. 相机运动的六个自由度，以及连续运动的相机路径。箭头表示相机的简单运动与方向。它们用绝对H和相关T运动结合相机路径表示更复杂的运动。

我们定义 $V = \left \{ \overline{F_{1}},\overline{F_{2}}, ,\overline{F_{3}},......,\overline{F_{t}} \right \}$ 为一个任意的视频（可能是不稳定的）在 t 帧之下相机的路径 $C_{3D} = \left \{ H_{1},H_{2},H_{3},......,H_{t} \right \}$ 每一帧的大小尺寸是H x W的矩阵。以及一个 t 帧的稳定视频 $\overline{V} = \left \{ \overline{F_{1}},\overline{F_{2}},\overline{F_{3}},......,\overline{F_{t}} \right \}$ ，每一帧大小是H x W。 $\overline{V}$ 是我们想要的稳定视频，而不是实际上的V， $\overline{V}$ 的相机路径为 $\overline{C}_{3D}$ 。那么我们可以知道原始相机路径 $C_{3D}$ 是由 $\overline{C}_{3D}$ 加上某些未知的抖动而形成的。因此正确的数字视频稳定是通过软件处理从 V 映射到 $\overline{V}$ ，然而我们通常不知道确切的 $\overline{C}_{3D}$ 路径（稳定视频的路径）来重建 $\overline{V}$ ， $\overline{V}$ 可能包含没有投影到原视频 V 的点。实际上我们只能得到 $V\rightarrow \widetilde{V}$ ， $\widetilde{V}$ 是一个在许多层面上十分接近 $\overline{V}$ 的值。 $\widetilde{V}$ 有可能损失原视频的数据信息，帧的尺寸上可能会缩减。但当 $\widetilde{H} = H$ 和 $\widetilde{W} = W$ 时，我们称为稳定处理是满帧（full-frame），除了帧的尺寸上会有潜在的减少，相机 $\widetilde{C}_{3D}$ 的路径也可能会与 $\overline{C}_{3D}$ 路径截然不同，即使处理中两者平滑度潜在相同的情况下。

不稳定视频：运动路径：

$V = \left \{ \overline{F_{1}},\overline{F_{2}}, ,\overline{F_{3}},......,\overline{F_{t}} \right \}$ $C_{3D} = \left \{ H_{1},H_{2},H_{3},......,H_{t} \right \}$

稳定视频：稳定视频的相机路径：

$\overline{V} = \left \{ \overline{F_{1}},\overline{F_{2}},\overline{F_{3}},......,\overline{F_{t}} \right \}$ $\overline{C}_{3D} = \left \{ \overline{H}_{1},\overline{H}_{2},\overline{H}_{3},......,\overline{H}_{t}\right \}$

实际应用中：实际应用中的相机路径：

$\widetilde{V} = \left \{ \widetilde{F}_{1},\widetilde{F}_{2},\widetilde{F}_{3},......\widetilde{F}_{t}, \right \}$ $\widetilde{C}_{3D} = \left \{ \widetilde{H}_{1},\widetilde{H}_{2},\widetilde{H}_{3},......,\widetilde{H}_{t} \right \}$

视频的质量会因为相机抖动的频率以及强度而受到影响。在物理上，相机的平滑总是与相机位置的变化有关，如果相机的轴是固定的，那么抖动在轨迹上来看就是在速度大小或者方向上突然或频繁的改变。静态的相机是以速度零来生成相机轨迹，而平移的相机是以恒定的速度来生成相机轨迹。静态和恒定方向平移的相机抖动程度可以视为零，因此在稳定的相机上相较于抖动的相机，它的运动角度和速度、加速度都趋于一个常值。视频稳定的方法是改变相机在轨迹上速度或角度上的突变，将“突变”的帧趋于平滑和稳定。