learning in the frequency domain

前言

传统的CNN都是在图像的空间域上进行特征学习,受限于显存限制,CNN的输入图像不能太大,最常见的尺寸就是224x224。而常用的预处理(Resize),以及CNN中的下采样,会比较粗暴的损失数据的信息。阿里达摩院联合亚利桑那州大学提出了基于DCT变换的模型,旨在通过DCT变换保留更多原始图片信息,并减少CPU与GPU的通信带宽,最后的实验也证明该模型的有效性

原始论文地址:Learning in the Frequency Domain
代码地址 DCTNet

介绍

大部分CNN模型只能接受 224x224大小的RGB图片,然而现实中存在大量高清图片(1920x1080),甚至最常用的ImageNet数据集,平均图片大小来到了 482x415。

RGB格式图片大小通常比较大,在CPU和GPU传输需要较大通信带宽,并且难以部署。同时我们预处理里面的缩放以及下采样,会带来信息的损失以及精度的下降

本文,我们尝试在频域内维持高分辨率的原始图片,进行DCT变换,并通过动/静态的通道选择方法,对输入通道进行蒸馏(最高可蒸馏87.5%在Resnet),并保持较高精度。

在这里插入图片描述

方法

在这里插入图片描述
上图是整个图像处理流程,我们依然在CPU上对图片进行预处理。

  • 首先将RGB格式转化为YCbCr格式
  • 然后做DCT变换转换到频域
  • 然后我们将相同频率的二维DCT变换系数分组到一个通道,形成一个立方体(Cube)。
  • 为了进一步降低推理时间,我们从中选出比较重要的几个通道作为输入。其中方法包含动态选择和静态选择
  • 最后将这些Tensor给连结到一起并归一化

我们这里遵循JPEG的8x8分块形式,将一张图片分成8x8的小方块,在单独对每个小方块上做DCT变换

然后我们将所有8×8块中相同频率的分量分组到一个通道,保持分块在每个频率上的空间对应关系

因此 Y,Cb,Cr每个通道都提供了8x8=64的通道。

处理后的图片形状变为
( H / 8 , W / 8 , C ∗ 64 ) (H/8,W/8,C*64) (H/8,W/8,C64)

使用了这种处理方法,意味着在相同开销下,我们的输入图片可以比原始的大8倍!

例如,对于MobileNetv2,我们可以输入896x896x3的图片,处理完后为112x112x192大小,再通过第一个卷积模块对通道数进行调整。

如下图所示,我们将上述DCT处理步骤替换到ResNet中,仅需把前面三个卷积,池化模块(步长为2)给去除即可。其他结构保持不变。
在这里插入图片描述

DCT(补充)

具体可以参考 详解离散余弦变换(DCT)
DCT即离散余弦变换,实际上就是将输入信号限定为实偶信号的离散傅里叶变换(DFT)

公式为
X [ K ] = Σ n = 0 N − 1 X [ n ] ∗ ( c o s 2 π k n N ) X[K] = \Sigma_{n=0}^{N-1}X[n]*(cos{\frac{2\pi kn}{N}}) X[K]=Σn=0

  • 5
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值