【转载】拒绝“王婆卖瓜，自卖自夸” | VIFB：第一个可见光与红外图像融合Benchmark

最新推荐文章于 2025-02-06 14:36:23 发布

我才是一卓

于 2023-05-26 14:39:13 发布

阅读量523

点赞数 2

文章标签： ir

原文链接：https://mp.weixin.qq.com/s/KB-f8maHuWZLUbvbxUrPxw

版权

文章介绍了创建的第一个可见光与红外图像融合Benchmark，旨在解决图像融合领域缺乏统一数据集和评价标准的问题。研究发现基于深度学习的融合算法并未如声称的那么优秀，性能有时甚至不如同类传统方法。VIFB提供了统一的测试集、算法库和评价指标，有助于更公正地比较不同方法的性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

00 引言

本文介绍一下我们致力于打破图像融合领域“王婆卖瓜，自卖自夸”现象的第一次尝试：第一个可见光与红外图像融合Benchmark。

一段时间以前，我在知乎专栏“图像融合理论、应用及趋势”里发表了一篇介绍我们做的可见光红外图像融合Benchmark的文章“VIFB: 一个可见光与红外图像融合Benchmark”。

文章发表以后，引起了很多人的兴趣。有很多人给我留言、写私信或者发邮件表达对这个工作的肯定和兴趣，有点超过我的预期。

这里我整理并介绍一下相关情况。

01 研究意义与初衷

最近（2020年5月27日），国际顶级期刊Science上发表了一篇题为“Eye-catching advances in some AI fields are not real”的文章。文章指出目前一些AI领域的发展是虚假繁荣，并引用了一篇MIT的研究人员针对模型剪枝算法所做的实验，表明很多宣称为SOTA (state-of-the-art) 的算法，其实性能并不怎样。

此外，该文章认为目前很多算法之间根本不存在可比性（因为模型不同，数据集不同等等原因），并提供了一个比较模型剪枝算法的平台。

Sience上的文章

我们做VIFB研究的初衷也是认为目前的很多图像融合算法不具备直接的可比性（因为数据集和评价指标都不同）。我们的实验结果，也初步表明目前基于深度学习的图像融合算法的性能其实没有相关论文宣称的那样好，到目前为止其实还比不上某些传统图像融合方法。

需要指出的是，我们的论文先于MIT的那篇分析模型剪枝的论文在网上发布，但我们的很多观点和文章主要思想却非常一致。这让我有点意外，也让我更加确信这个工作对于领域是有价值的（和MIT大佬的思想很一致，感觉不错）。

我始终认为，只有明确和正视基于深度学习的图像融合算法的真实性能，才有可能实现进一步的发展。否则的话，沉浸在“自我SOTA”的假象之下，领域难以真正进步。

02 图像融合领域的“王婆卖瓜，自卖自夸”现象

图像融合领域的“王婆卖瓜，自卖自夸”现象非常严重。简单点说，就是大家在论文里都宣称自己的算法达到了SOTA性能（在定性和定量评价中）。然而，在看了很多论文以后，我还是搞不清楚到底谁才是SOTA。

主要原因有两点：第一，测试集不同。第二，评价指标不同。

简单点说，目前的情况是这样的：A发明了一个算法，在B测试集上用C评价指标和D个算法进行了比较，打败了这D个算法，宣称自己是SOTA。E表示不服气。但是E的做法是，他发明一个算法，在F测试集上用G评价指标和H个算法进行了对比，打败了这H个算法，然后宣称自己是SOTA。

这就很奇怪了，这不是拿苹果和橘子在比吗？

这种现象在深度学习被引入图像融合领域以前就存在，在深度学习被引入以后，依然存在而且似乎更严重了。

这种做法直接造成了两个后果：第一，看了这么多论文，依然做不好图像融合；第二，让人搞不清楚目前图像融合到底发展到了什么水平，以及那些算法在实际应用中性能到底行还是不行。

本人一向是不喜欢混水摸鱼的，因此做了点小工作，希望尝试一下打破这种“王婆卖瓜”的现象。

03 可见光与红外图像融合背景介绍

可见光与红外图像融合（Visible and infrared image fusion）是图像融合领域的一个分支。其目的是将可见光和红外图像融合起来得到一幅融合图像，并且在融合图像中保留源图像的主要信息。

这样做的主要原因是因为可见光和红外图像包含互补的信息。例如，可见光图像容易受光照影响但包含很多细节信息，而红外图像不易受光照影响但是缺乏细节信息。下图展示了一个可见光与红外图像融合的例子。

可见光与红外图像融合在很多领域都有应用，例如可见光与红外图像融合跟踪（RGB-T tracking）、人脸识别、人耳识别、SLAM、国防领域。因此，多年以来，一直是比较活跃的研究领域。

从方法上来讲，传统的图像融合方法主要包含基于空间域的和基于变换域的方法。

基于空间域的方法是指直接在空间域对源图像进行操作从而得到融合图像的方法，主要包含基于像素的(pixel-based)、基于块的(block-based)和基于区域(region-based)的方法。

基于变换域的方法是指首先将源图像变换到某个变换域，然后在该变换域内进行图像融合（一般以系数的形式），最后再用逆变换得到融合图像的过程。常用的变换包括多尺度变换（例如小波变换）、压缩感知、稀疏表达等。

近年来，随着深度学习的发展，深度学习技术也被引入到了可见光与红外图像融合领域。包括CNN，GAN，AutoEncoder等在内的一些深度学习模型被应用到了可见光与红外图像融合领域，并“取得了不错的效果”。

因此，目前的图像融合方法主要有三种：基于空间域的方法、基于变换域的方法、基于深度学习的方法。

04 存在的问题

存在的问题前面已经简单说过了，这里再具体说一下。

从可见光与红外图像融合这个研究方向出现以来，该方向的研究就存在一个重大问题：缺乏benchmark。这主要表现在以下几个方面：

首先，没有统一的数据集。尽管有一些数据集相对常用，但并没有形成标准或者共识，因此在文献里，普遍存在测试图片不一致的情况。很多时候，是张三用A图片测试性能，而李四用B图像对在测试性能。

其次，没有统一的评价指标。和目标跟踪等有ground truth的领域不同，图像融合领域一般没有ground truth，从而导致对融合结果的评价没有标准答案。因此，图像融合领域的性能评价一般分类两部分：定性评价和定量评价。

定性评价也称主观评价，即靠人眼去观察融合图像的质量。尽管定性评价很重要，但显然主观性太强，毕竟“众口难调”，每个人的评判标准都不一样。

定量评价是指使用一些评价指标（evaluation metrics）去对融合图像进行评价。然而，由于前述的没有标准答案存在的缘故，目前也没有统一的评价指标。

事实上，到目前为止，研究人员大约设计了不下30种各种各样的评价指标用于评价融合图像的质量。然而，这些指标中并不存在最好的指标。指标的评价效果非常取决于测试图像，并且指标之间还存在互相矛盾的现象。

因此，在文献中通常的做法是只展示对自己算法有利的几组指标的结果。

基于上述两个原因，在可见光与红外图像融合领域，缺乏一个统一的benchmark来客观、全面地评价算法性能。目前的文献里基本上都是“王婆卖瓜，自卖自夸”。

考虑到这些情况，我们认为制作可见光与红外图像融合领域的benchmark是非常有必要的。

05 VIFB

我们着手制作了一个初步的benchmark，即visible and infrared image fusion benchmark (VIFB)。据我们所知，VIFB是可见光与红外图像融合领域的第一个benchmark，也是整个图像融合领域的第一个benchmark。

在VIFB中，截止到目前为止，我们收集制作了一个含有21对可见光与红外图像对的测试集、一个含有20种可见光与红外图像融合算法的代码库和13种评价指标。

此外，我们还制作了软件平台，在该平台上我们统一了这20种算法的接口，可以一键运行并获得融合结果（420张融合图像）和评价指标的计算结果。

VIFB中的20种图像融合算法

VIFB中的13种评价指标

另外，在VIFB中还可以非常方便地添加和运行算法（使用我们设计的函数接口）并计算评价指标。或者，将在其他环境中运行得到的融合图像添加到VIFB中进行评价指标的计算。此外，在VIFB中加入新的源图像也非常方便。

06 主要实验结果

我们基于VIFB做了一些实验，对VIFB中的20种图像融合算法（绝大多数发表于2016年以后）的性能进行了对比。

以下是部分定性实验结果：

20种图像融合算法在_fight_上的融合结果

20种图像融合算法在_carlight_上的融合结果

以下是定量实验结果：

主要结论：基于深度学习的图像融合方法的性能比不上传统方法。在上述20种方法中，性能最好的深度学习方法在定量评价指标上仅排并列第二，另外两种深度学习方法则排名更加靠后。在定性评价（即视觉效果）上，深度学习方法的视觉效果也比不上某些传统方法。

此外，本文测试的三种深度学习方法的运行效率不高，无法实现实时融合。也就是说，从综合性能上来讲，目前基于深度学习的图像融合方法并没有取得优势，遑论压倒性优势了。

考虑到在检测、识别、分类等领域里深度学习方法完全吊打传统方法，图像融合领域的这一特点值得深思。

当然，由于一些深度学习方法没有开源，我们无法获得其源代码，因此上述结论是基于VIFB得到，可能有所偏差。但是我们认为该结论还是具有一定的参考意义的。

事实上，我们开发VIFB的另外一个愿望，也是希望促进图像融合领域的代码开源。至少，以后我再审可见光图像融合的论文时，会要求作者提供在VIFB上的结果了，不会再完全相信论文里提供的实验结果。

07 结语

作为初步的尝试，我们希望VIFB的出现，可以给可见光与红外图像融合领域的研究者们提供一个运行算法和评价算法的平台，可以缓解可见光与红外图像融合领域文献中缺乏统一评价平台而导致的“王婆卖瓜、自卖自夸”现象**，可以促进代码开源，**为领域的发展助一分力。

由于是初步尝试，因此工作肯定还有很多疏漏和不足。如有意见和建议，欢迎各位同行、专家批评指正与交流，后续我们将继续改进。