learning in the frequency domain

最新推荐文章于 2024-06-07 15:20:51 发布

MarDino

最新推荐文章于 2024-06-07 15:20:51 发布

阅读量1.8k

点赞数 5

分类专栏：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44106928/article/details/108704448

版权

本文探讨了在频域进行图像处理的方法，通过DCT变换保留图像信息，减少通信带宽。文章介绍了动态和静态通道选择策略，以适应不同的任务需求，并在实验中展示了该方法的有效性，可用于提高模型效率和准确性。

摘要由CSDN通过智能技术生成

前言

传统的CNN都是在图像的空间域上进行特征学习，受限于显存限制，CNN的输入图像不能太大，最常见的尺寸就是224x224。而常用的预处理(Resize)，以及CNN中的下采样，会比较粗暴的损失数据的信息。阿里达摩院联合亚利桑那州大学提出了基于DCT变换的模型，旨在通过DCT变换保留更多原始图片信息，并减少CPU与GPU的通信带宽，最后的实验也证明该模型的有效性

原始论文地址：Learning in the Frequency Domain
代码地址 DCTNet

介绍

大部分CNN模型只能接受 224x224大小的RGB图片，然而现实中存在大量高清图片(1920x1080)，甚至最常用的ImageNet数据集，平均图片大小来到了 482x415。

RGB格式图片大小通常比较大，在CPU和GPU传输需要较大通信带宽，并且难以部署。同时我们预处理里面的缩放以及下采样，会带来信息的损失以及精度的下降。

本文，我们尝试在频域内维持高分辨率的原始图片，进行DCT变换，并通过动/静态的通道选择方法，对输入通道进行蒸馏(最高可蒸馏87.5%在Resnet)，并保持较高精度。

在这里插入图片描述

方法

在这里插入图片描述
上图是整个图像处理流程，我们依然在CPU上对图片进行预处理。

首先将RGB格式转化为YCbCr格式
然后做DCT变换转换到频域
然后我们将相同频率的二维DCT变换系数分组到一个通道，形成一个立方体(Cube)。
为了进一步降低推理时间，我们从中选出比较重要的几个通道作为输入。其中方法包含动态选择和静态选择
最后将这些Tensor给连结到一起并归一化。

我们这里遵循JPEG的8x8分块形式，将一张图片分成8x8的小方块，在单独对每个小方块上做DCT变换

然后我们将所有8×8块中相同频率的分量分组到一个通道，保持分块在每个频率上的空间对应关系。

因此 Y，Cb，Cr每个通道都提供了8x8=64的通道。

处理后的图片形状变为
$(H / 8, W / 8, C * 64)$

使用了这种处理方法，意味着在相同开销下，我们的输入图片可以比原始的大8倍！

例如，对于MobileNetv2，我们可以输入896x896x3的图片，处理完后为112x112x192大小，再通过第一个卷积模块对通道数进行调整。

如下图所示，我们将上述DCT处理步骤替换到ResNet中，仅需把前面三个卷积，池化模块（步长为2）给去除即可。其他结构保持不变。
在这里插入图片描述

DCT（补充）

具体可以参考详解离散余弦变换（DCT）
DCT即离散余弦变换，实际上就是将输入信号限定为实偶信号的离散傅里叶变换(DFT)

公式为
$\Sigma_{n=0}^{N-1}X[n]*(cos{\frac{2\pi kn}{N}})$

最低0.47元/天解锁文章

关注

5
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

MarDino CSDN认证博客专家 CSDN认证企业博客

码龄6年

114: 原创

23万+: 周排名

142万+: 总排名

28万+: 访问

: 等级

3488: 积分

129: 粉丝

288: 获赞

122: 评论

1119: 收藏

私信

关注

热门文章

分类专栏

MXNET 7篇
深度学习 24篇
飞桨框架 4篇
LeetCode 27篇
数据结构 16篇
面试 23篇
Pytorch 4篇
开发 1篇
C++ 6篇
Keras 4篇
Opencv 1篇
安全 5篇
Python 37篇
爬虫 8篇
机器学习 22篇

最新评论

小米手机安装charles证书
洋_奕: 我是通过微信将证书发到手机的，和数据线传输有问题吗？我的app抓不到
1X1卷积核的理解
犬薇: 不理解，看不明白，为啥就升维或者降维了
Vision transformer
二月剪刀: 有一个问题self.pos_embedding = nn.Parameter(torch.randn(1, num_patches + 1, dim))，那么把position_embedding加入到输入x里面论文中说是直接相加嘛，那为什么x += self.pos_embedding[:, :(n + 1)]这个地方要取列的索引，取前n+1列这个索引一直没懂，我的理解是不应该加全部吗，拼接完cls_token后x的shape是（b,n+1,d）嘛（b即batch，n即patch数，d即flatten后的维度），这里pos_embedding的shape是（n+1,d)，那么直接广播相加就行了啊，为什么还要取一个列的n+1索引一直没想明白
小米手机安装charles证书
qq_43158931: 求助，redmi note 11型号，miui14.0.2系统版本安装抓包怎么整
卷积神经网络的可视化——热力图Grad CAM
weixin_62025716: 如何换成自己的模型呢

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。