小波卷积网络Multi-level Wavelet-CNN for Image Restoration论文阅读笔记

论文链接:Multi-level Wavelet-CNN for Image Restoration | IEEE Conference Publication | IEEE Xplorex​​​​​​​x

论文来源:CVPRW2018

项目地址:GitHub - lpj0/MWCNN: Multi-level Wavelet-CNN for Image Restoration(matlab)GitHub - lpj-github-io/MWCNNv2: Multi-level Wavelet Convolutional Neural Networks(python)

作者团队:哈工大

Abstract

在低水平视觉中,感受野大小和效率之间的权衡是一个至关重要的问题。普通卷积网络(CNN)通常以牺牲计算成本为代价来扩大感受野。最近,扩张滤波被用来解决这个问题。但它受到网格效应的影响,产生的感受野只是带有棋盘格图案的输入图像的稀疏采样。在本文中,我们提出了一种新的多层小波CNN(MWCNN)模型,以更好地权衡感受野大小和计算效率。在改进的U-Net结构下,引入小波变换来减小收缩子网中特征图的大小。此外,进一步使用另一卷积层来减少特征图的通道。在扩展的子网络中,利用小波逆变换重构高分辨率特征图。我们的MWCNN也可以解释为扩展滤波和下采样的推广,并且可以应用于许多图像恢复任务。实验结果清楚地表明了MWCNN在图像去噪、单图像超分辨率和JPEG图像伪影去除方面的有效性。

1. Introduction

balabala

我们应该小心地扩大感受野,同时避免计算负担的增加和性能改进的潜在牺牲。以SISR为例,图1显示了几种典型CNN模型的感受野、运行时间和PSNR值。可以看出,FSRCNN[14]具有相对较大的感受野,但实现的PSNR值低于VDSR[29]和DnCNN[57]。

在本文中,我们提出了一种多级小波CNN(MWCNN)模型来扩大感受野,以更好地权衡性能和效率。我们的MWCNN基于U-Net[41]架构,由收缩子网和扩展子网组成。在收缩子网中,引入离散小波变换(DWT)来代替每个池化操作。由于DWT是可逆的,因此可以保证所有信息都可以通过这种降采样方案保持。此外,DWT可以捕获特征图的频率和位置信息[12,13],这可能有助于保留细节纹理。在扩展子网中,利用小波逆变换(IWT)将低分辨率特征图向高分辨率特征图进行上采样。为了丰富特征表示并减少计算负担,采用元素求和的方法来组合收缩和扩展子网的特征映射。此外,扩张滤波也可以解释为MWCNN的一个特例,我们的方法在扩大感受野方面更为普遍和有效。图像去噪、SISR和JPEG图像伪影消除实验验证了我们的MWCNN的有效性和效率。如图1所示,就运行时间而言,MWCNN比LapSRN[31]、DnCNN[57]和VDSR[29]稍慢,但可以具有更大的感受野和更高的PSNR值。综上所述,这项工作的贡献包括:

  • 一种新的MWCNN模型,用于扩大感受野,并在效率和恢复性能之间进行更好的权衡。
  • 由于DWT具有良好的时频局部化特性,因此具有很好的细节保持能力。
  • 图像去噪、SISR和JPEG图像去块的最新性能。

2. Related work

balabala

一些研究也给出了将小波变换与CNN相结合的方法。Bae等人[5]发现在小波子带上学习CNN有利于CNN学习,并建议使用小波残差网络(WavResNet)进行图像去噪和SISR。类似地,Guo等人[20]提出了一种深度小波超分辨率(DWSR)方法来恢复子带上缺失的细节。随后,开发了深卷积框架[21,54],以扩展low-dose CT的卷积框架。然而,WavResNet和DWSR都只考虑一级小波分解。深度卷积框架从分解角度独立处理每个子带,忽略了这些子带之间的依赖关系。相比之下,我们的MWCNN认为多级小波变换可以在不丢失信息的情况下扩大感受野。我们的MWCNN在每次变换后都将所有子带作为输入,可以通过池将DWT嵌入到任何CNN中,并且具有更强的建模空间上下文和子带间依赖性的能力。

 3. Method

3.1. From multi-level WPT to MWCNN

在二维离散小波变换(DWT)中,四个滤波器,即,用于与图像x进行卷积[36]。然后对卷积结果进行下采样以获得四个子带图像x1、x2、x3和x4。例如,x1被定义为.即使部署了下采样操作,由于DWT的双正交特性,原始图像x也可以通过小波逆变换(IWT)精确地重建,即

在多级小波包变换(WPT)[4,13]中,子带图像X1、x2、x3和X4用DWT进一步处理以产生分解结果。对于二级WPT,每个子带图像分解成四个子带图像。递归地,可以获得三个或更高级别WPT的结果。图2(a)说明了使用WPT对图像进行分解和重建。实际上,WPT是FCN的一个特例,没有非线性层。在分解阶段,对每个(子带)图像部署四个预定义的滤波器,并采用下采样作为池化操作符。在重建阶段,首先对四个子带图像进行上采样,然后使用相应的滤波器进行卷积,以产生当前级别的重建结果。最后,利用逆WPT可以精确地重建原始图像x。 

 

 在图像去噪和压缩中,处理分解结果通常需要一些操作,例如软阈值和量化[9,33]。这些操作可以被视为针对特定任务而定制的某种非线性。在这项工作中,我们通过在任意两层DWT之间添加CNN块,进一步将WPT扩展到多级小波CNN(MWCNN),如图2(b)所示。在每一级变换之后,将所有子带图像作为CNN块的输入,以学习紧凑表示作为后续变换级的输入。很明显,MWCNN是多级WPT的推广,当每个CNN块成为恒等映射时,它将退化为WPT。由于WPT的双正交特性,我们的MWCNN可以在不丢失信息的情况下安全地使用下采样操作。此外,与传统的CNN相比,DWT的频率和位置特征也有利于细节纹理的保存。

 3.2. Network architecture

MWCNN体系结构的关键是在每一级DWT之后设计CNN块。如图3所示,每个CNN块是一个没有池化的4层FCN,并将所有子带图像作为输入。相反,不同的CNN部署在深度卷积小框架中的低频和高频段[21,54]。我们注意到,DWT后的子带图像仍然是依赖的,忽略它们的依赖性可能对恢复性能有害。CNN块的每一层由3×3滤波器卷积(Conv)、批量归一化(BN)和校正线性单元(ReLU)操作组成。对于最后一个CNN块的最后一层,采用不含BN和ReLU的Conv对残差图像进行预测。

 图3显示了MWCNN的总体架构,该架构由收缩子网和扩展子网组成。通常,MWCNN从三个方面修改U-Net。(i) 对于下采样和上采样,传统U-Net[41]中使用了最大池化和上卷积,而MWCNN中使用了DWT和IWT。(ii)对于MWCNN,下采样导致特征图通道的增加。除第一个块外,其他CNN块被部署以减少特征图通道,从而实现紧凑的表示。相比之下,对于传统的U-Net,下采样对特征映射通道没有影响,随后的卷积层用于增加特征图通道。(iii)在MWCNN中,元素求和用于组合收缩和扩展子网的特征图。而在传统的U-Net中,采用了级联。然后,我们的最终网络包含24层。有关MWCNN设置的更多详细信息,请参阅图3。在我们的实现中,MWCNN采用了Haar小波作为默认小波。我们的实验中还考虑了其他小波,例如Daubechies 2(DB2)。

用Θ表示MWCNN的网络参数,F(y;Θ)为网络输出。设为训练集,其中yi是第i个输入图像,xi是相应的地面真值图像。学习MWCNN的目标函数如下所示:

采用ADAM算法[30]通过最小化目标函数来训练MWCNN。与VDSR[29]和DnCNN[57]不同,我们不采用残差学习公式,因为它可以自然嵌入MWCNN中。 

3.3. Discussion

MWCNN中的DWT与池化运算和扩张滤波密切相关。我们以Haar小波为例来解释DWT与和池化的关系。在2D Haar小波中,低通滤波器定义为:

可以看出实际上是sum-pooling操作。当只考虑低频子带时,DWT和IWT将分别在MWCNN中起池化和上卷积的作用。当考虑所有子带时,MWCNN可以避免传统的下采样带来的信息丢失,有利于恢复结果。

为了说明MWCNN和因子为2的扩张滤波之间的联系,我们首先给出了fLH、fHL和fHH的定义, 

 

 

 其中k是3×3卷积核。实际上,它也可以通过对子带图像进行3×3卷积得到,

 ​​​​​​​

 与扩张滤波相比,MWCNN还可以避免网格效应。经过几层扩展过滤后,它只考虑使用棋盘格模式对位置进行稀疏采样,导致大部分信息丢失(见图4(a))。扩张滤波的另一个问题是,两个相邻像素可能基于来自完全不重叠位置的信息(见图4(b)),并可能导致局部信息不一致。相反,图4(c)显示了MWCNN的感受野。可以看出,MWCNN能够很好地解决稀疏采样和局部信息不一致的问题,并有望在定量和定性上提高恢复性能。

 

 4. Experiments

 

### 回答1: 电影评论情感分类是一项重要的自然语言处理任务,旨在自动将电影评论分为正面或负面情感。为了解决这个问题,研究人员已经开发了各种机器学习模型,其中卷积神经网络text-cnn是一种有效的模型。 TensorFlow是一个强大的深度学习库,提供了text-cnn模型的实现。text-cnn模型由多个卷积层和全局最大池化层组成,每个卷积层用于提取文本中的特定特征,而全局最大池化层则用于提取最具代表性的特征。最终,这些特征将被用于分类任务,通过一个全连接层来实现。 与其他情感分类模型相比,text-cnn模型具有许多优点。首先,它可以自适应不同长度的文本输入,并且不需要手动提取特征。其次,text-cnn模型具有较高的分类准确率,并且可以在大规模数据上进行训练,以提高其性能。最后,TensorFlow提供了一个简单的接口来实现text-cnn模型,并且提供了丰富的调试和可视化工具,使得模型的训练和评估变得更加容易。 总之,卷积神经网络text-cnn模型是一种高效、准确的情感分类模型,结合TensorFlow库的支持,可以有效地应用于电影评论等自然语言处理任务中。 ### 回答2: 电影评论情感分类是一类自然语言处理任务,它的目标是对一段文本进行情感分类,预测这段文本表达的情感是正面的(positive)还是负面的(negative)。在实践中,卷积神经网络CNN)已经被广泛应用于情感分类,其中text-cnn模型是最常用的一种。 Text-cnn模型在情感分类任务中的表现优秀,它将文本看作是一种二维结构,其中一个维度是词语,另一个维度是嵌入矩阵中的向量。文本中的词被编码为嵌入向量,并且这些嵌入向量被视为图像的像素。在text-cnn模型中,多个不同大小的卷积核被用来通过卷积操作提取出文本的局部特征。这些局部特征被压缩成一个全局特征向量,并通过一个全连接层进行分类器预测。 TensorFlow是实现text-cnn模型的流行工具之一,它是一个开源的机器学习框架,提供了广泛的API和工具来创建高效的深度学习模型。TensorFlow可以轻松地构建text-cnn模型,而且具有内置的优化器和损失函数,它可以加速模型训练和优化。 总的来说,text-cnn模型是一个强大的情感分类器,它已经在几个领域得到了成功的应用。在使用TensorFlow实现text-cnn模型时,需要注意模型的超参数调整,以及数据预处理和特征工程的优化,这些都可以影响模型的性能和泛化能力。 ### 回答3: 电影评论情感分类是NLP领域的一个基础应用问题,通过对文本进行情感分类可以帮助我们更好地理解用户心理、市场需求等诸多方面。卷积神经网络(CNN)是目前NLP领域应用广泛的深度学习算法,它能够对输入的多维矩阵进行特征提取,逐层降维,最终将特征表示为一维向量。 Text-CNNCNN在NLP领域的应用,它主要通过卷积层和池化层对文本进行特征提取和降维。卷积层通过提取矩阵中的局部特征,池化层通过按照一定的规则对特征进行采样,最终形成一个固定长度的向量作为文本的表示。在情感分类任务中,Text-CNN可以通过对输入的文本进行卷积和池化操作,得到文本的固定长度特征向量,进而输出文本的情感类别。 TensorFlow是当前最受欢迎的深度学习框架之一,它提供了丰富的API和工具,能够方便地构建并训练Text-CNN模型。在构建Text-CNN模型时,首先需要进行文本的预处理,将文本转换为数字表示,然后使用TensorFlow对模型进行定义和训练。 总之,电影评论情感分类是NLP领域一个重要的应用问题,采用Text-CNN模型可以准确有效地对文本进行情感分类,而TensorFlow提供了一个便捷的框架和工具,用于构建和训练Text-CNN模型。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值