在视频生成领域,Sora模型以其卓越的能力引起了广泛关注。该模型不仅在视觉上逼真,而且在模拟现实世界物理现象方面表现出色。然而,目前缺乏量化评估其真实物理世界保真度的既定指标。来自南开大学、字节跳动、武汉大学和南开国际先进研究院的研究团队提出了一个新的基准测试,通过将生成的视频转换为3D模型来评估其对现实世界物理原则的遵循程度。
![](https://i-blog.csdnimg.cn/direct/1e841a2b3be1487b82bb34e3795505ba.png)
(b) 展示了不同方法在设计的“持续稳定性”度量标准下的性能。
方法
作者选择了Structure-from-Motion(SfM)技术来计算视频中相机的位置和姿态。SfM是一种从多个视角捕捉同一场景的图像,并从中恢复出3D结构的技术。它通过检测图像序列中的特征点,并通过匹配这些特征点来估计相机的位置和场景的3D结构。这种方法对于评估生成视频的几何一致性至关重要,因为它可以揭示视频中的物体和场景是如何在不同时间点上保持一致的。
接着作者采用了高斯散射方法来进行3D重建。在SfM确定了相机的姿态之后,高斯散射技术被用来从视频中生成3D点云。这种方法特别适合处理复杂场景,能够生成高质量的3D模型,包括不同材质和光照条件下的物体。通过这种方法,可以从生成的视频中提取出精确的3D信息,进一步用于评估视频的物理真实性。
在3D重建的过程中,作者没有对现有的COLMAP算法和高斯散射算法进行修改,以保持评估的公正性和算法的原始性能。这样做的目的是为了确保评估结果能够真实反映生成视频的几何一致性,而不是由于算法调整带来的可能的偏差。
在评估过程中,作者特别强调了度量标准的详细性和全面性。他们设计了一系列定量指标来全面评估视频的3D重建质量。这些度量标准包括以下几个关键方面:
初始匹配点的数量:即在视频帧之间通过SIFT算法检测到的特征点总数。这个指标反映了视频中可供分析的特征点的丰富程度,为后续的匹配和重建工作提供了基础。
过滤后保留的匹配点数量:在通过SIFT算法找到初始匹配点后,并非所有点都适合用于3D重建。因此,使用RANSAC算法等技术进行筛选,以去除错误匹配或不可靠的点,保留下来的匹配点是用于3D重建的可靠特征。
保留点的比例:它通过保留的匹配点数量除以初始匹配点的总数来计算。这个比例反映了匹配过程的准确性,高比例意味着更多的初始匹配点被确认为有效,这通常与高质量的3D重建相关联。
平均误差和均方根误差(RMSE):这是一种常用的统计度量,用于衡量观测值与真值之间的差异。这些指标反映了匹配点与它们在3D空间中理想位置的偏差。较低的平均误差和RMSE表明匹配点更加精确,从而有助于生成更高质量的3D模型。
作者通过对Sora生成的视频和其他方法生成的视频进行定量比较,展示了Sora在3D重建方面的优势。通过这些比较,可以清晰地看到Sora在生成具有高几何一致性的视频方面的卓越性能。这种性能的展示不仅证明了Sora模型的有效性,也为未来视频生成技术的发展提供了一个重要的参考基准。
度量标准设计基于多视图几何原理,这是3D重建技术的核心。多视图几何涉及到从不同视角观察同一场景,并从中恢复出3D结构。在这一过程中,有两个主要因素决定了模型的质量:
-
虚拟视频观察相机的视角必须充分符合物理特性,例如针孔相机模型。这意味着,视频中的相机视角应该模拟现实世界中相机的成像原理,确保观察到的场景在几何上是合理的。
-
随着视频的进展和视角的变化,场景中刚性部分的变化必须保持物理和几何稳定性。这表明视频中的物体和结构在移动或变化时,应该遵循现实世界的物理规律,保持一致性和连贯性。
两视图几何作为多视图几何的基础单元,对于评估AI生成视频的物理保真度至关重要。如果视频中的两帧能够很好地符合理想的两视图几何约束,如极线几何,那么可以认为视频在几何上具有较高的真实性。具体来说,如果视频中连续的两帧能够理想地反映相机视角和场景特征,那么通过匹配算法能够获得更多的匹配点。
为了量化这种几何一致性,作者从AI生成的视频中提取两帧,形成两视图图像对。对于每一对图像,使用匹配算法找到相应的点,然后利用基于基础矩阵(极线约束)的RANSAC算法排除错误的对应关系。通过这种方式,可以计算出以下度量指标:
- num pts:指在双目视图中初始匹配点的总数。
- num inliers F:指过滤后保留的匹配点总数。
- keep ratio:通过num inliers F与num pts的比值得到,反映了匹配点的保留比例。
- mean err 和 rmse:分别指代平均误差和均方根误差,用于衡量匹配点与对应极线的距离。
![](https://i-blog.csdnimg.cn/direct/d434664eae4a4409aea9af9202c834ca.png)
通过这些度量指标,可以对生成的视频进行定量评估,从而判断其在几何上的一致性和真实性。这种方法不仅为视频生成模型提供了一种新的评估手段,也为未来在更广泛的物理属性上的评估奠定了基础。
实验
作者选择了传统的SIFT算法来执行稀疏匹配模块,而不是使用更为强大的基于深度学习的匹配算法。这一选择背后的目的是为了避免匹配性能过于强大,以至于可能会掩盖图像质量方面的潜在问题。例如,如果使用过于强大的匹配算法,可能会错误地匹配在光照、纹理和材质属性等方面发生变化的图像区域,从而无法真实反映生成视频的质量。
为了确保评估的公正性和准确性,作者采用了SIFT算法来检测和描述视频中的关键点,并在不同帧之间找到匹配点。这样的方法有助于揭示视频中可能存在的质量问题,为进一步的分析和改进提供依据。
密集匹配模块也采用了传统的SGBM算法来实现,出于与稀疏匹配相同的理由。SGBM算法用于在稀疏匹配之后进一步细化匹配过程,生成更加详细的3D点云。
在匹配过程中,作者使用了OpenCV中提供的原始RANSAC算法版本。RANSAC算法是一种鲁棒的数据拟合算法,它通过迭代的方式从数据集中选择随机样本来拟合模型,并剔除异常值,从而提高匹配结果的准确性。
为了进行公平的比较,作者直接从Sora的官方网站获取了视频,并利用Sora视频的第一帧,结合Gen2和Pika的image2video功能,使用相同的提示(prompt)生成了相同场景的视频。这种方法确保了在比较不同视频生成方法时,场景内容的一致性,使得评估结果更加可靠和有说服力。
作者通过计算视频中每帧的总帧数,采用30帧的采样间隔,并使用RANSAC算法的阈值为3,从第一帧开始连续计算。这种方法允许他们定量地评估生成视频的几何一致性。实验结果表明,Sora生成的视频在匹配误差上与其他方法相似,但在正确匹配点的数量上却显著高于其他方法,这表明Sora生成的视频在几何保真度上具有优势。
持续稳定性度量用于评估在不同帧采样间隔下,正确匹配点保持率的变化。这种评估被称为持续稳定性的评估。实验结果显示,随着帧间隔的增加,Sora在正确匹配的保持比率上显示出缓慢的下降趋势,而其他方法则显示出更急剧的下降。这一结果突显了Sora在长时间保持物理、成像和几何特征稳定性方面的优势。
作者通过可视化的方式展示了3D重建过程和结果。他们使用SFM和高斯散射方法,展示了由不同方法生成的点云和高斯散射重建结果。可视化结果包括了不同场景下的3D重建效果,如图2展示了Pika、Gen2和Sora生成的视频的3D重建结果。这些结果不仅展示了点云,还包括了高斯散射的可视化,清晰地显示了Sora在3D重建质量上的卓越性能。图3和图4分别展示了不同方法生成视频的稀疏匹配结果和SGBM立体匹配结果的可视化分析,进一步证实了Sora在几何一致性方面的优越性。
![](https://i-blog.csdnimg.cn/direct/2efdbc48347a47dcadba9ee5cc7ececa.png)
结果表明Pika和Gen2的重建范围有限,几何和纹理质量较差。Sora的重建质量显著超过Pika和Gen2
![](https://i-blog.csdnimg.cn/direct/5eb9ac27079c4572a5c23844c3ea01c5.png)
![](https://i-blog.csdnimg.cn/direct/269145cefc614c6198940b042e30fba8.png)
通过这些实验和度量,作者不仅验证了Sora模型在视频生成方面的先进性,而且提供了一种新的视角来理解和评估视频生成技术的质量。这些发现为视频生成领域的研究者提供了宝贵的见解,并为未来的技术发展奠定了基础。
论文链接:https://arxiv.org/abs/2402.17403