Pre-Trained Image Processing Transformer论文笔记

前言

为了针对图像处理任务中各种各样的需求,比如说超分辨、去模糊、去雨等,参照了类似于目标检测、语义分割那边的模型,例如Vit、GPT等,它们用一个大数据训练出模型主框架,再配上不同的特定任务需要的头和尾(这里头和尾的意思是根据任务不同,最后出来的目标也是不一样,比如目标检测出来的是几维的特征,而在语义分割出来的是一整张的图,所以需要针对不同需求的任务改变网络输入和输出,但是主框架是不变的),再在特定需求的数据上进行迁移学习就可以达到很好的效果,这也是当今比较流行的思路。总体上来说就是,用大数据训练主框架之后,根据任务需求在特定的小数据上进行迁移学习。基于此,提出了IPT预训练模型,训练使用的数据超过了一千万张图片,主要框架也是基于Transformer实现的,并且在实验验证后这个模型确实在很多图像处理的任务上达到了非常好的效果。

网络框架

整个网络框架大致由一个多头结构(根据任务需求)、Transformer编码器、Transformer解码器和尾部组成。

Heads

一幅图像输入为3×H×W,针对每个任务的Head都是由三层卷积层组成,经过卷积层之后转换成C×H×W的特征图。

Transformer编码器

将每个通道的特征图按每行每列先分成P×P个patches,然后每个patch加上自己的位置偏置,然后经过LN之后的多头注意力机制MSA计算,最后经过一个全连接层输出。

Transformer解码器

在解码器方面,先经过第一层的LN,然后多头注意力机制,然后第二层的LN,多头注意力机制,再是全连接层。

Tails

最后根据任务需求进行tail的设计和输出,比如对于降噪、去雨的任务,输出大小就是3×H×W;对于超分辨任务来说,×2的超分辨任务输出大小为3×H'×W',H'=2H,以此类推。

实验

超分辨

 

去雨

降噪

 消融实验

除此之外,论文还对传统的CNN模型和IPT预训练模型进行了对比,可以看到IPT模型对比其他传统的CNN模型来说,也就是说在对transformer模型进行了大量的预训练之后,结果是要好于CNN的,即验证了transformer更适合大数据模型。

 总结

IPT模型的提出总体来说重点不在于模型的结构,模型的结构其实还是比较简单的,就是类似于vit的基础模型,一个head,编码器和解码器的body和一个tail。重点在于整篇文章说明了一件事,就是通过大数据喂出来的大的预训练transformer模型来进行各类的图像处理是可行的,而且效果也是非常不错的。如果要涨点,提升数据量是非常直接的方法。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值