GuidedNet: A General CNN Fusion Framework via High-Resolution Guidance for Hyperspectral Image Super-Resolution
(GuidedNet:一个通用的CNN融合框架,通过高分辨率指导高光谱图像超分辨率)
高光谱图像超分辨率(HISR)是将低分辨率高光谱图像(LR-HSI)和高分辨率多光谱图像(HR-MSI)融合生成高分辨率高光谱图像(HR-HSI)。最近,基于卷积神经网络(CNN)的技术已经被广泛研究用于产生有竞争力的结果的HISR。然而,现有的基于CNN的方法往往需要大量的网络参数,导致沉重的计算负担,从而限制了泛化能力。本文充分考虑HISR的特点,提出了一种通用的高分辨率指导CNN融合框架,称为GuidedNet。该框架由两个分支组成,包括:1)高分辨率引导分支(HGB)和2)特征重建分支(FRB),该分支可以将高分辨率指导图像分解为多个尺度; 2)特征重建分支(FRB),该分支从HGB中提取低分辨率guidance图像和多尺度高分辨率guidance图像,重建高分辨率融合图像。GuidedNet可以有效地预测添加到上采样HSI的高分辨率残差细节,以同时提高空间质量并保留光谱信息。所提出的框架是使用递归和渐进的策略,它可以促进高性能与一个显着的网络参数减少,甚至确保网络的稳定性,通过监督几个中间输出。此外,该方法也适用于其他分辨率增强任务,如遥感全色锐化和单图像超分辨率(SISR)。在模拟和真实的数据集上的大量实验表明,所提出的框架为几个应用程序(即,HISR、全色锐化和SISR)。最后,消融研究和更多的讨论评估,例如,网络泛化,低计算成本,和更少的网络参数。
INTRODUCTION
实际上,高光谱图像超分辨率(HISR),如图1所示的融合高光谱图像(LR-HSI)可以显著提高低分辨率高光谱图像(LR-HSI)的空间分辨率和高分辨率多光谱图像(HR-MSI)的光谱信息,最终获得高空间分辨率和光谱分辨率的融合高光谱图像(HSI),已成为计算机视觉领域的一个基本问题。许多应用可以受益于融合的HISR图像,例如,一些遥感数据分析,环境检测,分类和识别。
一般来说,HISR方法可以大致分为两类。即,变分优化(VO)方法和深度学习(DL)方法。在这项工作中提出的方法属于后一类。
基于VO的方法主要是通过考虑适当的正则化子和保真度项来建立优化模型来解决计算机视觉问题。这样,就可以准确地描述当前高分辨率、高分辨率、高可靠性问题的主要特性。然后,设计了一些实用的算法来有效地求解给定的模型,估计最终的超分辨率图像。虽然这些基于VO的方法产生了令人满意的SR结果,他们需要先验信息之前重建高分辨率HSI。该信息通常是场景相关的,需要微调以适应不同的真实的场景。此外,此类的计算负担通常很重。
在过去的十年中,基于DL的算法已经被认为解决了几个图像处理任务,例如超分辨率[23],[24],[25],[26],图像分类[27]和视觉问答[28]。主要地,卷积神经网络(CNN)作为基于DL的方法的核心技术,已被应用于HISR [29]、[30]、[31]、[32]、[33]、[34]、[35]、[36]、[37],取得了令人鼓舞的结果。这些DL方法可以学习HSI和地面真值(GT)之间的关系。他们在HISR任务中表现令人满意。然而,这些方法仍然具有一些缺点。首先,一些方法具有复杂的网络结构和相当数量的网络参数,严重消耗计算资源,训练和执行花费很长时间。其次,以前的方法一般利用整个MSI而不提取多尺度空间特征。高分辨率HSI(HR-HSI)的特征与LR-HSI的特征显著不同,导致大规模融合和重建中的障碍。第三,一些基于DL的方法不能容易地扩展到其他图像SR问题(例如,全色锐化或SISR),具有令人满意的结果。因此,上述问题促使我们进一步改进基于DL的HISR方法。
在本文中,我们提出了所谓的GuidedNet引入两个关键分支(主要用于HISR的应用)。第一个是高分辨率引导分支(HGB)分解图像到几个尺度,充分利用到后续的融合分支。另一个是特征重建分支(FRB),其可以融合LR输入和来自HGB的多尺度信息以产生最终的HR输出。此外,递归块也被集成到所提出的网络架构,导致更少的网络参数和更少的计算时间,同时保持高质量的结果。
概括而言,主要贡献如下:
1)本文提出了一种通用的CNN融合框架。我们成功地将其应用于多个图像分辨率增强问题,如HISR,pansharpening,和SISR,同时在每个任务中获得最先进的(SOTA)的性能。
2)设计了两个新的网络分支,即FRB和HGB,以利用高分辨率制导图像的多尺度信息并重建融合的高分辨率输出。特别是,这两个分支具有以下特点,即多尺度信息融合,渐进特征注入,逐步特征重建。在多尺度框架下,通过使用从宽到细的感受野,可以更准确地捕获丰富的结构信息。与直接上采样相比,直接上采样导致学习映射函数的困难和大缩放因子的模糊效果,渐进结构可以通过使其适应大规模超分辨率来更好地解决这个问题。此外,GuidedNet预测的中间结果是有监督的,有助于网络稳定。由于这些特性,GuidedNet可以很容易地获得有希望的结果,以提高分辨率。
3)GuidedNet相对于以前开发的方法具有几个优点:由于设计的网络架构,更少的网络参数,由于使用递归块,一个显着的能力,上采样到几个尺度,以及良好的适应性,其他图像分辨率增强任务(在实验部分验证)的SOTA性能。
RELATED WORKS
一般而言,HR-HSI、LRHSI和HR-MSI之间的关系可由以下线性模型表示:
其中Z ∈
R
H
W
×
s
R^{HW×s}
RHW×s、Y ∈
R
h
w
×
S
R^{hw×S}
Rhw×S和X ∈
R
H
W
×
S
R^{HW×S}
RHW×S分别表示输入HR-MSI、LR-HSI和目标HR-HSI。H和W是目标分辨率的高度和宽度,即HR-MSI和HR-HSI的高度和宽度,h和w是输入LR-HSI的高度和宽度。S是HSI的光谱带的数量,并且s是LR-MSI的光谱带的数量。B ∈
R
H
W
×
H
W
R^{HW×HW}
RHW×HW表示循环卷积算子,S ∈
R
H
W
×
h
w
R^{HW×hw}
RHW×hw表示下采样算子,R ∈
R
s
×
S
R^{s×S}
Rs×S表示HR-MSI的谱响应矩阵。NY和NZ分别是与LR-HSI和HR-MSI相关的噪声。
基于上述模型,许多研究已经提出了有效的解决方案的HSI超分辨率问题。例如,在[17]中,已经研究了频谱解混和稀疏编码思想以提高HSI的分辨率。Yokoya等人使用线性光谱混合模型开发了耦合非负矩阵分解(CNMF)解混算法,该算法可以有效且高效地获得有竞争力的HISR结果。Dian等人分别对HR-MSI和HR-HSI进行聚类,应用低张量训练秩(LTTR)约束将HISR转换为优化问题,从而实现了出色的结果。Dian等人利用CNN去噪器来规范融合过程,实现了出色的融合性能,而无需额外的HCI和MSI用于预训练阶段。
然而,由于通常需要假设一些主观先验,传统的方法在应用于不同场景时对场景的变化敏感,表现出困难。近年来,基于CNN的DL方法已被广泛地用于各种低级视觉任务。例如,Lim等人使用残差网络设计了EDSR,并实现了具有竞争力的单图像超分辨率(SISR)结果。Zeng等人通过提出的耦合深度自动编码器(CDA)学习了LR和HR图像块的固有表示,该编码器具有出色的SISR性能。基于CNN的方法,可以在不依赖主观先验的情况下解决HISR问题。Dian等人提出了一种新的基于深度CNN的HSI和MSI融合方法,该方法考虑了HSI和MSI的成像模型,并实现了上级的融合性能。Palsson等人提出了一种使用主成分分析融合HR-MSI和LR-HSI的三维CNN网络。该方法大大降低了计算量,对噪声具有较强的鲁棒性。Zhu等人提出了一种轻量级渐进式零中心残差网络。Xie等人根据[31,eq.(1)]然后利用近似梯度法构造了求解算法。在此基础上,对该求解算法进行了扩展,设计了一种新的融合网络MHF-net 。受益于良好的保存的光谱和空间细节,MHF-网优于其他基于DL的方法,目前代表SOTA HISR方法。
HISR与多光谱图像的全色锐化任务密切相关。在这项工作中,我们还扩展了我们的方法,pansharing任务。全色锐化问题通过融合LR-MSI和HR全色(PAN)图像来重建HR-MSI。传统的全色锐化方法由基于分量替换(CS)和多分辨率分析(MRA)的方法两种表示。基于CS的方法,例如依赖于空间细节的频带(BDSD)和具有物理约束的BDSD(BDSD-PC),可以产生可接受的空间保真度结果,但引入频谱失真。基于MRA的方法类别包含广义拉普拉斯金字塔(GLP)和基于回归的全分辨率GLP(GLP-Reg)。
许多基于DL的方法已经被设计用于产生竞争性性能的全色锐化问题。Masi等人采用了一个简单的三层卷积网络来进行泛锐化。Yang等人提出了一种深度网络结构(PanNet),通过高通滤波器在高通域训练网络,专注于光谱和空间保留。Deng等人结合了传统的CS和MRA融合方案,开发了一种提取高质量细节的深度网络(FusionNet),实现了具有竞争力的性能。然而,达到高空间分辨率的全色锐化会产生显著的光谱失真。在全色锐化中引入和充分使用渐进和多尺度架构可以缓解这个问题。
PROPOSED GUIDEDNET
在这一节中,我们提出了所提出的方法,所设计的网络,包括网络结构组成的两个建议的分支,参数减少的递归机制,多尺度训练的损失函数,和一些网络训练细节的发展下的动机。
Motivation
一些上述问题,如渐进式特征注入,渐进式特征重建和参数共享,促使我们开发一个通用的CNN融合框架,它可以充分考虑,在一个简单的方式,渐进式多尺度结构(PMS)的HISR问题。此外,我们还期望实现有希望的结果与一个显着的网络参数减少。同时,我们希望所提出的架构可以很容易地扩展到多个图像融合任务,促进通用融合框架的设计。因此,我们需要为融合任务的两个输入设计两个分支,以保证来自不同输入的充分的信息交换和通信。此外,空间信息被融合到特征域。因此,在重建分支中,网络具有来自特征域和图像域的双数据流(DDS),其通过残差学习模块连接。
Overall Network Architecture
这项工作的目的是制定一个通用的图像融合任务的融合框架,同时充分利用多尺度信息,渐进的特征注入,逐步特征重建。为了达到这一目标,我们设计了一个通用的CNN融合框架,通过高分辨率的指导图像融合,即提出的GuidedNet。
总体和详细的架构在图2和图3(b)中示出。下面,我们将首先介绍GuidedNet的两个分支。为了说明给定的网络架构,我们将HISR称为应用程序。注意,该架构可以容易地扩展到其他图像融合任务,例如,全色锐化和SISR。
1) High-Resolution Guidance Branch: 由于在融合任务中存在高分辨率输入,因此充分利用该高分辨率输入并将图像细节注入到低分辨率输入中是至关重要的。此外,在较低尺度上的高分辨率输入仍然保持高频信息,其可以被集成到低分辨率输入中。受上述两点的启发,我们设计了一个HGB来将来自不同尺度的高分辨率细节注入到低分辨率输入分支中(参见图2中的顶侧)。提出的GuidedNet引入了两个分支的战略,把空间细节作为一个指导术语,以驱动高分辨率的信息注入到特征域。与先前开发的基于双分支策略的网络相比,例如[54]中用于泛锐化的高效双向金字塔网络(BDPN)和[55]中用于深度图超分辨率的深度多尺度指导网络(MSGNet),GuidedNet在融合模式中显示了几个不同之处,利用渐进特征重建。
多尺度高分辨率引导图像的生成可以表示如下:
2) Feature Reconstruction Branch: FRB是关于从高分辨率输入逐渐注入高频细节(即,HR-MSI)在不同的尺度到LR-HSI的情况(见图2中的底侧)。
a) FRB flow 首先通过卷积层Conv 1提取LR-HSI特征F0,参数表示为Θ1
则所提取的LR-HSI特征被所设计的DFM考虑以通过在最小尺度上合并高分辨率输入来完成空间特征重构(即,Z1)。重建的HR-HSI来自上一级。有关DFM的详细信息,请参见第III-B2节。当通过递归DFM的融合过程结束时,我们获得两个输出,即重建的HR-HSI特征F1和更精细尺度的HR-HSI图像重建的HR-HSI来自上一级。有关DFM的详细信息,请参见第III-B2节。当通过递归DFM的融合过程结束时,我们获得两个输出,即重建的HR-HSI特征F1和更精细尺度的HR-HSI图像 ~ X1。之后,在下一个DFM中考虑两个获得的输出和更精细尺度的高分辨率输入。这种并行的两个数据的结构称为DDS,并且在重复这个过程几次之后,最终的HR-HSI由FRB产生。
b) DFM: 本节专门介绍DFM。该模块包括三个输入(即,来自HGB的高分辨率输入、重建的HR-HSI特征和来自前一步骤的HR-HSI图像)进入设计的卷积模块,用于将高频信息逐渐注入HSI。该模块首先考虑由卷积操作和去卷积策略组成的特征上采样,以在更精细的尺度(对应于由HGB提供的高分辨率输入的尺度)上增加特征大小。然后,上采样的HSI特征与来自HGB的高分辨率guidance连接,被视为具有详细信息的新特征。新功能的通道数由简单的卷积层恢复
一个独特的ResNet会计有效残差块(ERB),称为ResNet-ERB,旨在融合细节和重建高分辨率HSI特征。通常,ResNet由两个卷积层和中间的激活函数组成,如图4(a)所示。然而,随着ResNet深度的增加,由于深度ResNet中存在大量冗余,梯度信息在到达末端时往往会消失。具有有限益处的太多卷积会增加计算负担,因此,建议通过移除多余的层来简化网络。对于图像空间增强任务,可以通过创建从早期到后期层的短路径来加强特征传播。因此,提出的DFM利用ResNet,包括ERB。在所提出的ERB中,仅采用LeakyReLU激活函数和卷积层来简化网络结构,提高效率。结构如图4(b)所示。几个块连接成一行以形成最终的ResNet-ERB模块。因此,由于块的更直接的结构,网络减少了参数的数量。此外,这种块结构可以更有效地提取特征,降低网络在学习阶段的难度(防止梯度爆炸)。ResNet-ERB在我们的网络中表示为
通过这种设计,guidances的空间细节被逐渐注入到与不同层相关的DFM中的HSI特征中。图5展示出了针对不同层的DFM的特征Fk(k ∈{1,2,3})的视觉比较。
具体来说,在CAVE数据集的图表和填充玩具测试用例中,我们分别选择特征图的第31、54和15个波段作为R、G和B,并对图像进行采样以达到相同的尺寸以用于可视化目的。该图显示了三个要素中的空间细节信息增加。在生成重建的高分辨率特征作为ResNet-ERB的输出之后,由卷积层组成的残差重建模块预测残差图像以调整通道。在另一个流中,LR-HSI通过上采样块以因子2进行上采样,即像素混洗(PS)(称为子像素卷积)。该操作如图3(a)所示。最后,将上采样图像添加到残差图像以重建最终HR-HSI。因此,我们有
c) Recursive mechanism for DFMs: 在确定DFM之后,GuidedNet方法重复DFM几次以达到HSI的期望分辨率。由于不同尺度的DFM保持相同的网络结构,我们可以使用递归机制为每个DFM显着减少网络参数。此外,由于DFM的重复使用,所提出的网络理论上可以得到任何缩放因子幂2的融合结果。例如,我们测试了我们的GuidedNet的性能,并考虑了HISR应用程序的比例因子为4、8、16和32(参见第III-B2节)。
3) Comparison With Previous Works: GuidedNet与以前的工作有关,例如BDPN和MSGNet,它们使用不同的分辨率进行双向多尺度特征增强。与BDPN相比,GuidedNet强烈关注将特征融合到两个分支中以提取细节,而BDPN只是使用一个简单的加法运算来解决这个问题。在融合低分辨率图像时,必须将制导图像映射到特征空间。因此,我们在GuidedNet中重视图像特征之间的映射学习。与MSGNet相比,GuidedNet产生多次中间结果,并采用多尺度损失训练,以保证频谱的保存和稳定性。此外,MSGNet方法的融合步骤仅基于简单的卷积,降低了任务的效率。最后,GuidedNet实现了特征域的多尺度融合和重构,并且由于其共享策略,它可以显着减少网络参数。
Loss Function
在GuidedNet中,几个中间输出,即~X i,i = 1,2,…,L,由递归DFM生成。这些输出可以通过专门设计的网络架构逐步生成具有期望规模的最终HR输出。为了更好地监督网络学习,最好在给定尺度的输出与对应的下采样GT图像之间实施均方误差(MSE)损失。因此,最终损失函数是多重损失函数,其定义如下:
其中,k表示重建的HSI的层数,Θ涉及所有待学习的相关网络参数,Y和Zn分别为输入的LR-HSI和最大分辨率引导图像,Xk表示第k层的HR-HSI,K表示所有层号(其中K ={1,2,…n}),αk是第k层每个子损失函数的权重。
权重可以以几种方式设置。一种尝试是考虑到最终结果的近似程度来设置它们,即,权重随着尺度的增加而逐渐变得更重要。例如,如果SR比为8,则我们设置K ={1,2,3},并且α1、α2和α3分别设置为1、2和4。然而,网络的稳定性可能会降低,并且在此设置下预测结果可能会出现高度失真。这是因为中间结果没有被显著监督。另一种可能性是增加中间结果的权重来解决这个问题。因此,α1、α2和α3可以分别设置为4、2和1,以提高稳定性和精度。实际上,网络架构是逐步训练的。因此,如果我们对初始和中间损失函数采取更大的权重(即,层1和2),我们可以具有更好的最终HR图像重建,即使我们对最终层使用更小的权重(即,第三层)。
Network Training Details
1) Network Details: 本节专门用于显示更多网络详细信息。更具体地,用于所有特征的通道的数量C被设置为64,所有卷积核的大小为3X3,所有下采样卷积和去卷积核的大小为6X6,并且所有卷积的填充类型被设置为“SAME”。另外,当x < 0时,所有相关激活函数使用斜率为0.2的LeakyReLU。特别地,ResNet-ERB中的规模的ERB的数量是10,并且ERB结构如图4(b)所示。
2) Training Data: 我们使用CAVE数据集来训练和测试所有比较的方法。该数据集由32个大小为512 × 512 × 31的HSI和相应的大小为512 × 512 × 3的RGB图像(视为多光谱图像,MSI)组成,这些图像由通用光谱响应函数R生成,以模拟尼康D700相机。我们选择了21个HSI作为训练集,11个HSI作为测试集。为了降低存储成本,我们将原始的HSI(HR-HSI)和MSIs(HR-MSIs)分别裁剪为80 × 80 × 31和80 × 80 × 3的大小。
EXPERIMENTS
本节首先分析HISR的定性和定量性能。然后,广泛的讨论建议GuidedNet的超分辨率能力提供给读者。在此基础上,我们扩展了给定的方法,遥感融合任务,即多光谱泛锐化。
1) Pansharpening: 全色锐化是将低分辨率的多光谱图像(LR-MSI)和高空间分辨率的PAN图像进行融合,以获得与PAN图像具有精确空间分辨率的HR-MSI。关于全色锐化的更多细节可以在最近的评论中找到[66]。全色锐化任务与MSI/HSI融合任务有一些相似之处。因此,遵循GuidedNet的MSI/HSI融合框架,我们只需要PAN图像替换图2中的HR-MSI,LR-MSI替换图2中的LR-HSI。值得注意的是,用于全色锐化的缩放因子通常是4(至少对于主要采用的传感器是这样)。因此,我们将递归DFM的数量减少到2。我们采用了8波段多光谱数据集的WorldView-3(WV-3)传感器的培训。建立训练和测试数据的过程在[52]中描述。因此,我们有8806个PAN(64 × 64)、LR-MSI(16 × 16 × 8)和HR-MSI(64 × 64 × 8)图像块对作为训练集。为了简洁起见,我们不介绍关于所使用的数据的细节。
对于此应用程序,我们将我们的方法与四种基于SOTA DL的泛锐化方法进行比较,即PNN ,PanNet,DMDnet 和FusionNet 。表XII报告了所有比较方法在1258个随机选择的训练样本上的结果。
2) Single-Image Super-Resolution:
GuidedNet融合框架也可以扩展到SISR问题。然而,建议的融合框架需要高分辨率的指导,以提高分辨率。相反,SISR具有唯一的输入,LR图像。因此,我们需要在框架中引入高分辨率指导。在这里,我们使用竞争性SISR方法的结果,即基于DL的SISR方法EDSR,以取代图2中HGB中的HRMSI。
CONCLUSION
本文提出了一个通用的CNN融合框架,GuidedNet,以处理HISR问题,由于高分辨率的指导。具体问题的动机(即,HISR),该框架使用两个分支制定:1)HGB;2)FRB。此外,通过考虑一些策略,如递归机制和渐进技术,提出的GuidedNet可以显着减少网络参数,获得高质量的结果。在几个HSI数据集上进行的大量实验证明了所提出的GuidedNet的优越性,并将其与最近的SOTA方法进行了比较。此外,讨论了几个方面,如网络的泛化,网络的复杂性,相对于缩放因子的变化,和时间比较的鲁棒性,已提供给读者。最后,提出的融合框架已很容易地扩展到其他分辨率增强任务,即遥感pansharpening和SISR。