【CV论文阅读】【计算机视觉中的Transformer应用综述】(1)

在这里插入图片描述

0.论文摘要

摘要——自然语言任务的Transformer model模型的惊人结果引起了视觉社区的兴趣,以研究它们在计算机视觉问题中的应用。在它们的显著优点中,与递归网络例如长短期记忆(LSTM)相比,Transformer能够模拟输入序列元素之间的长依赖性,并支持序列的并行处理。与卷积网络不同,Transformer的设计需要最小的偏差,自然适合作为集函数。此外,Transformer的简单设计允许使用类似的处理块处理多种形式(例如,图像、视频、文本和语音),并表现出对超大容量网络和巨大数据集的出色可扩展性。这些优势已经导致使用Transformer model网络的许多视觉任务取得了令人兴奋的进展。本调查旨在提供计算机视觉学科中Transformer model模型的全面概述。我们首先介绍Transformer成功背后的基本概念,即自我关注、大规模预训练和双向特征编码。然后,我们将介绍Transformer在视觉中的广泛应用,包括流行的识别任务(例如,图像分类、对象检测、动作识别和分割)、生成建模、多模态任务(例如,视觉问题回答、视觉推理和视觉基础)、视频处理(例如,活动识别、视频预测)、低级视觉(例如,图像超分辨率、图像增强和彩色化)和3D分析(例如,点云分类和分割)。我们从建筑设计和实验价值两个方面比较了流行技术各自的优势和局限性。最后,我们对开放的研究方向和未来可能的工作进行了分析。我们希望这一努力将进一步激发社区的兴趣,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

量子-Alex

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值