计算机视觉CV中的Transformer

最新推荐文章于 2024-03-06 18:07:21 发布

whatever?picky?

最新推荐文章于 2024-03-06 18:07:21 发布

阅读量1.8k

点赞数

文章标签： transformer 计算机视觉深度学习

本文链接：https://blog.csdn.net/weixin_44522007/article/details/123064760

版权

在计算机视觉领域，CNN自2012年以来已经成为视觉任务的主导模型。随着出现了越来越高效的结构，计算机视觉和自然语言处理越来越收敛到一起，使用Transformer来完成视觉任务成为了一个新的研究方向，以降低结构的复杂性，探索可扩展性和训练效率。

视觉应用

虽然Transformer结构在NLP领域得到了广泛的应用，但是在视觉领域的应用仍然有限。在视觉领域，attention或者是和CNN网络共同使用或者是代替CNN中特定的组件。想要将 Transformer应用到视觉任务中，我们首先需要构建一些类似于VGG、ResNet之类的backbone。

以下是几个在相关工作中比较知名的项目：

DETR(End-to-End Object Detection with Transformers)，使用Transformers进行物体检测和分割。
Vision Transformer (AN IMAGE IS WORTH 16X16 WORDS: Transformer FOR IMAGE RECOGNITION AT SCALE)，使用Transformer 进行图像分类。
Image GPT(Generative Pretraining from Pixels)，使用Transformer进行像素级图像补全，就像其他GPT文本补全一样。
End-to-end Lane Shape Prediction with Transformers，

最低0.47元/天解锁文章

whatever?picky?

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
计算机视觉CV中的Transformer

在计算机视觉领域，CNN自2012年以来已经成为视觉任务的主导模型。随着出现了越来越高效的结构，计算机视觉和自然语言处理越来越收敛到一起，使用Transformer来完成视觉任务成为了一个新的研究方向，以降低结构的复杂性，探索可扩展性和训练效率。视觉应用虽然Transformer结构在NLP领域得到了广泛的应用，但是在视觉领域的应用仍然有限。在视觉领域，attention或者是和CNN网络共同使用或者是代替CNN中特定的组件。想要将 Transformer应用到视觉任务中，我们首先需要构建一些类..
复制链接

扫一扫