视觉Transformer研究的关键问题: 现状及展望
田永林, 王雨桐, 王建功, 王晓, 王飞跃. 视觉 Transformer 研究的关键问题: 现状及展望. 自动化学报, 2022, 48(4): 957-979
由于我们的疏忽,发表在自动化学报的版本中存在错误和疏漏,在此给出修正后的版本 (pdf地址)。感谢读者指出我们的问题!
摘要:Transformer 所具备的长距离建模能力和并行计算能力使其在自然语言处理领域取得了巨大成功并逐步拓展至计算机视觉等领域. 本文以分类任务为切入, 介绍了典型视觉 Transformer 的基本原理和结构, 并分析了 Transformer 与卷积神经网络在连接范围、权重动态性和位置表示能力三方面的区别与联系; 同时围绕计算代价、性能提升、训练优化以及结构设计四个方面总结了视觉 Transformer 研究中的关键问题以及研究进展; 并提出了视觉Transformer 的一般性框架; 然后针对检测和分割两个领域, 介绍了视觉 Transformer 在特征学习、结果产生和真值分配等方面给上层视觉模型设计带来的启发和改变; 并对视觉 Transformer 未来发展方向进行了展望.
关键字:视觉 Transformer, 图像分类, 目标检测, 图像分割, 计算机视觉